Fahrzeugdatensatz
- Vorbereitung des Datensatzes
- name (A)
- fuel (O)
- seller_type (R)
- from dealer (S)
- from trustmark dealer (T)
- transmission (U)
- automatic (V)
- owner (W)
- 2nd owner (X)
- 3+ owners (X)
- mileage (Z)
- mileage_kmpl (AA)
- engine (AB)
- engine cc (AC)
- max_power (AD)
- max power bhp (AE)
- torque (AF)
- torque N·m (AG)
- max torque min RPM (AH)
- max torque max RPM (AI)
- seats (AJ)
- less than 5 seats (AK)
- more than 5 seats (AL)
- Fazit
Kaggle bietet den Fahrzeugdatensatz (auf Englisch) an, der sich sehr gut für lineare Regressionen eignet und daher in dieser Dokumentation zu Demonstrationszwecken verwendet wird.
Allerdings lassen sich nicht-numerische Spalten nicht in der statistischen Analyse verwenden. Deshalb haben wir eine angepasste Version des Datensatzes erstellt, in der die Textwerte mit entsprechenden Google-Tabellen-Formeln in numerische Werte umgewandelt wurden.
Wenn Sie mit den Beispielen aus der TableTorch-Dokumentation experimentieren möchten, haben Sie zwei Möglichkeiten:
-
die modifizierte Kopie des Datensatzes mit allen zusätzlichen Konvertierungsspalten herunterladen und in Ihr Google Drive kopieren. Sie steht unter derselben Database Contents License (DbCL) v1.0 (auf Englisch) von Open Data Commons wie das Original;
oder
-
den Originaldatensatz von Kaggle herunterladen und anhand der folgenden Anweisungen dieselben Anpassungen vornehmen.
Vorbereitung des Datensatzes
Das Archiv enthält die Datei Car details v3.csv
mit allen notwendigen Informationen. Spalten wie
year, selling_price, km_driven, seats liegen bereits in
numerischem Format vor und benötigen keine weitere Bearbeitung. Die Spalten
name, fuel, seller_type, transmission, owner, mileage, engine,
max_power und torque liegen jedoch im Textformat vor und müssen
konvertiert werden.
Die folgenden Abschnitte beschreiben die Konvertierung jeder Spalte; der
Buchstabe in Klammern ist die jeweilige Spaltenkennung im Blatt.
Die angegebenen Formeln gelten für die erste Datenzeile. Google Tabellen
übernimmt die Formel in der Regel automatisch für die übrigen Zeilen, wenn Sie
nach Eingabe der Formel für die erste Zeile Strg+Enter drücken.
name (A)
name ist eine besonders interessante Spalte, weil sie überhaupt keine
Zahlen enthält und das Automodell als Freitext beschreibt. Da ein Merkmal
zum Automodell für eine Regression wichtig sein kann, wäre es schade,
daraus nicht wenigstens einige numerische Informationen zu gewinnen.
Eine Möglichkeit besteht darin, die am häufigsten vorkommenden Wörter
in den Namen zu ermitteln und für jedes Wort eine Spalte mit einem binären
Wert hinzuzufügen — 1, wenn der Name das Wort enthält, und 0, wenn nicht.
Die zehn häufigsten dieser Wörter im Datensatz sind Maruti, Hyundai, Swift, Mahindra, Tata, BSIV, Toyota, Honda, Alto, Ford. Fügen Sie für jedes dieser Wörter eine separate Spalte mit einer entsprechenden Formel ein, wie unten dargestellt:
Maruti (B)
=IF(ISNUMBER(FIND("Maruti", A2)), 1, 0)
Hyundai (C)
=IF(ISNUMBER(FIND("Hyundai", A2)), 1, 0)
Swift (D)
=IF(ISNUMBER(FIND("Swift", A2)), 1, 0)
Mahindra (E)
=IF(ISNUMBER(FIND("Mahindra", A2)), 1, 0)
Tata (F)
=IF(ISNUMBER(FIND("Tata", A2)), 1, 0)
BSIV (G)
=IF(ISNUMBER(FIND("BSIV", A2)), 1, 0)
Toyota (H)
=IF(ISNUMBER(FIND("Toyota", A2)), 1, 0)
Honda (I)
=IF(ISNUMBER(FIND("Honda", A2)), 1, 0)
Alto (J)
=IF(ISNUMBER(FIND("Alto", A2)), 1, 0)
Ford (K)
=IF(ISNUMBER(FIND("Ford", A2)), 1, 0)
Das Blatt enthält nun 10 zusätzliche numerische Spalten zur Identifizierung von Autoherstellern.
fuel (O)
Im Datensatz kommen verschiedene Kraftstoffarten vor, die große Mehrheit der Einträge hat jedoch entweder Diesel oder Benzin. Erstellen Sie zwei Spalten mit folgenden Formeln:
diesel (P)
=IF(O2="Diesel", 1, 0)
petrol (Q)
=IF(O2="Petrol", 1, 0)
seller_type (R)
Im Datensatz gibt es drei verschiedene Verkäufertypen: Individual, Dealer und Trustmark Dealer. Die meisten Einträge sind vom Typ Individual, daher ist es sinnvoll, die anderen beiden Varianten in separate Spalten zu extrahieren. Fügen Sie zwei neue Spalten ein:
from dealer (S)
=IF(R2="Dealer", 1, 0)
from trustmark dealer (T)
=IF(R2="Trustmark Dealer", 1, 0)
transmission (U)
Das Getriebe ist entweder Manual oder Automatic, daher reicht eine einzelne zusätzliche Spalte aus, um einen numerischen Wert zu extrahieren.
automatic (V)
=IF(U2="Automatic", 1, 0)
owner (W)
Extrahieren Sie aus der Spalte owner zwei weitere Spalten — eine für Second Owner und eine für alles andere als First Owner oder Second Owner. Seltene Werte werden der Einfachheit halber ignoriert.
2nd owner (X)
=IF(W2="Second Owner", 1, 0)
3+ owners (X)
=IF(OR(W2="First Owner", W2="Second Owner"), 0, 1)
mileage (Z)
Dies ist die erste Spalte, in der ein numerischer Wert und die Maßeinheit zusammen stehen. Außerdem fehlt in einigen Zeilen jeglicher Wert; daher ist es sinnvoll, diese mit dem Median-Verbrauch aufzufüllen, um die Regression nicht zu verfälschen.
Der Unterschied zwischen den Einheiten kmpl und km/kg kann der Einfachheit halber ignoriert werden. Ein numerischer Wert lässt sich mit folgender Formel extrahieren:
mileage_kmpl (AA)
=IF(ISNUMBER(FIND(" ", Z2)), VALUE(LEFT(Z2, FIND(" ", Z2))), 19.3)
engine (AB)
Fügen Sie eine Konvertierungsspalte für den Hubraum ein:
engine cc (AC)
=IF(ISNUMBER(FIND(" ", AB2)), VALUE(LEFT(AB2, FIND(" ", AB2))), 1248)
max_power (AD)
Konvertieren Sie die maximale Leistung mit folgender Formel in ein numerisches Format:
max power bhp (AE)
=IF(ISNUMBER(FIND(" ", AD2)), VALUE(LEFT(AD2, FIND(" ", AD2))), 82)
torque (AF)
Das Textformat dieser Spalte ist schwieriger auszuwerten, weil:
- sie zwei verschiedene Maßeinheiten (N·m und kg·m) enthält;
- manche Zeilen einen Drehzahlbereich angeben, während andere nur einen einzelnen Wert enthalten;
- die Formatierung zwischen den Zeilen erheblich variiert.
Fügen Sie die folgenden drei Spalten ein, um:
- alle Werte in eine einheitliche Einheit (N·m) umzurechnen;
- sowohl die Minimal- als auch die Maximalwerte des Drehzahlbereichs auszulesen, wobei identische Werte verwendet werden, wenn der Originalwert keinen Bereich angibt;
- Medianwerte der entsprechenden Spalten zu verwenden, wenn keine ursprünglichen Informationen vorhanden sind.
torque N·m (AG)
=IF(
ISNUMBER(SEARCH("kgm", AF2)),
VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")) * 9.8,
IF(
ISNUMBER(SEARCH("Nm", AF2)),
VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")),
170
))
max torque min RPM (AH)
=IF(
ISNUMBER(SEARCH("rpm", AF2)),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)")),
2000)
max torque max RPM (AI)
=IF(
ISNUMBER(SEARCH("rpm", AF2)),
IF(REGEXMATCH(AF2, "\d-\d"),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*[\d\.,]+-([\d\.,]+)")),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)"))
),
3000)
seats (AJ)
Obwohl seats bereits in numerischem Format vorliegt, kann es nützlich sein, zwei zusätzliche binäre Merkmale daraus zu extrahieren, da sich der Wert des Fahrzeugs nichtlinear ändern kann, wenn es kein übliches 5-Sitzer-Modell ist.
less than 5 seats (AK)
=IF(AJ2 < 5, 1, 0)
more than 5 seats (AL)
=IF(AJ2 > 5, 1, 0)
Fazit
Die Tabelle besteht jetzt aus 38 Spalten und passt nicht mehr in die Bildschirmbreite.
Nachdem nun nahezu jedes numerische Detail aus den Textdaten des Datensatzes extrahiert wurde, können wir mit dem Aufbau eines Modells zur Vorhersage der Spalte selling_price beginnen. Auf den Seiten Korrelationsmatrix und Lineare Regression erfahren Sie, wie das direkt in Google Tabellen mit TableTorch funktioniert.
Siehe auch:
Google, Google Tabellen, Google Workspace und YouTube sind Marken von Google LLC. Gaujasoft TableTorch ist nicht mit Google verbunden und wird nicht von Google unterstützt.
Ihr Feedback ist uns wichtig!
Vielen Dank, dass Sie TableTorch verwenden oder in Betracht ziehen!
Beschreibt diese Seite die Funktion korrekt und verständlich? Funktioniert sie tatsächlich so, wie hier beschrieben, oder gibt es ein Problem? Haben Sie Verbesserungsvorschläge?
Bei Fragen können Sie sich jederzeit gerne an uns wenden.
- E-Mail: ___________
- Facebook-Seite
- Twitter-Profil

