Transportlīdzekļu datu kopa
- Datu kopas sagatavošana
- name (A)
- fuel (O)
- seller_type (R)
- from dealer (S)
- from trustmark dealer (T)
- transmission (U)
- automatic (V)
- owner (W)
- 2nd owner (X)
- 3+ owners (X)
- mileage (Z)
- mileage_kmpl (AA)
- engine (AB)
- engine cc (AC)
- max_power (AD)
- max power bhp (AE)
- torque (AF)
- torque N·m (AG)
- max torque min RPM (AH)
- max torque max RPM (AI)
- seats (AJ)
- less than 5 seats (AK)
- more than 5 seats (AL)
- Secinājums
Kaggle nodrošina transportlīdzekļu datu kopu, kas ir ļoti labi piemērota lineārām regresijām, un tāpēc tā tiek izmantota visā šajā dokumentācijā demonstrācijas nolūkiem.
Tomēr nenumēriskās kolonnas nevar izmantot statistiskā analīzē. Tāpēc mēs izveidojām modificētu datu kopas versiju ar teksta vērtībām, kas pārvērstas skaitliskās ar atbilstošām Google izklājlapu formulām.
Ja vēlaties eksperimentēt ar piemēriem, kas sniegti TableTorch funkciju dokumentācijā, ir iespējams vai nu:
-
lejupielādēt un kopēt savā Google Drive modificētu datu kopas kopiju ar visām papildu konvertēšanas kolonnām. Tā ir licencēta saskaņā ar to pašu Open Data Commons’ Database Contents License (DbCL) v1.0 kā sākotnējā;
vai
-
lejupielādēt sākotnējo datu kopu no Kaggle un atsaukties uz zemāk esošajām instrukcijām, lai ieviestu tās pašas modifikācijas.
Datu kopas sagatavošana
Arhīvs satur failu Car details v3.csv,
kas satur visu nepieciešamo informāciju. Tādas kolonnas kā
year, selling_price, km_driven, seats ir
skaitliskā formātā un neprasa nekādas turpmākas darbības. Tomēr
kolonnas name, fuel, seller_type, transmission, owner, mileage, engine,
max_power un torque ir teksta formātā un prasa
konvertēšanu.
Nākamās sadaļas apspriež katras kolonnas konvertēšanu,
burts iekavās ir kolonnas lapas līmeņa identifikators.
Sniegtās formulas ir piemērotas pirmajai datu rindai. Google izklājlapas
parasti ļauj automātiski pielietot formulu pārējām rindām,
nospiežot Ctrl+Enter pēc formulas ievadīšanas
pirmajai rindai.
name (A)
name ir īpaši interesanta kolonna, jo tajā nav nekādu
skaitļu un tā drīzāk identificē automašīnas modeli brīvā
formā. Tomēr, tā kā automašīnas modeļa pazīme var būt nozīmīga
regresijā, būtu izšķērdīgi nemēģināt izvilkt vismaz
kādu skaitlisku informāciju no tās. Viens veids, kā to izdarīt,
ir identificēt visbiežāk sastopamos vārdus starp nosaukumiem
un pievienot kolonnu ar bināru vērtību, t.i., 1, ja nosaukums
satur vārdu, un 0, ja nesatur.
Top 10 šādi vārdi datu kopai ir Maruti, Hyundai, Swift, Mahindra, Tata, BSIV, Toyota, Honda, Alto, Ford. Katram no šiem vārdiem ievietojiet atsevišķu kolonnu ar atbilstošu formulu, kā ilustrēts zemāk:
Maruti (B)
=IF(ISNUMBER(FIND("Maruti", A2)), 1, 0)
Hyundai (C)
=IF(ISNUMBER(FIND("Hyundai", A2)), 1, 0)
Swift (D)
=IF(ISNUMBER(FIND("Swift", A2)), 1, 0)
Mahindra (E)
=IF(ISNUMBER(FIND("Mahindra", A2)), 1, 0)
Tata (F)
=IF(ISNUMBER(FIND("Tata", A2)), 1, 0)
BSIV (G)
=IF(ISNUMBER(FIND("BSIV", A2)), 1, 0)
Toyota (H)
=IF(ISNUMBER(FIND("Toyota", A2)), 1, 0)
Honda (I)
=IF(ISNUMBER(FIND("Honda", A2)), 1, 0)
Alto (J)
=IF(ISNUMBER(FIND("Alto", A2)), 1, 0)
Ford (K)
=IF(ISNUMBER(FIND("Ford", A2)), 1, 0)
Lapai tagad ir 10 papildu skaitliski apstrādājamas kolonnas, kas identificē automašīnu ražotājus.
fuel (O)
Datu kopā ir daži dažādi degvielas veidi, tomēr lielākā daļa ierakstu ir viens no diviem: dīzelis vai benzīns. Izveidojiet divas kolonnas ar šādām formulām:
diesel (P)
=IF(O2="Diesel", 1, 0)
petrol (Q)
=IF(O2="Petrol", 1, 0)
seller_type (R)
Datu kopā ir trīs unikāli pārdevēju veidi: Individual, Dealer, un Trustmark Dealer. Lielākā daļa ierakstu ir Individual veida, tāpēc ir jēga izvilkt pārējos divus variantus atsevišķās kolonnās. Ievietojiet divas jaunas kolonnas:
from dealer (S)
=IF(R2="Dealer", 1, 0)
from trustmark dealer (T)
=IF(R2="Trustmark Dealer", 1, 0)
transmission (U)
Transmisija ir vai nu Manual, vai Automatic, tāpēc pietiek ar vienu papildu kolonnu, lai izvilktu skaitlisku vērtību.
automatic (V)
=IF(U2="Automatic", 1, 0)
owner (W)
Izvelciet vēl divas kolonnas no owner kolonnas Second Owner un jebko citu, kas nav First Owner vai Second Owner. Retās vērtības tiek ignorētas vienkāršībai.
2nd owner (X)
=IF(W2="Second Owner", 1, 0)
3+ owners (X)
=IF(OR(W2="First Owner", W2="Second Owner"), 0, 1)
mileage (Z)
Šī ir pirmā kolonna ar salīmētu skaitlisku vērtību un mērvienību. Turklāt dažiem ierakstiem trūkst jebkādas vērtības, tāpēc ir jēga tos papildināt ar mediānas kilometrāžu, lai izvairītos no regresijas mulsinīšanas.
Atšķirību starp kmpl un km/kg vienībām var ignorēt vienkāršībai, un skaitlisko vērtību var izvilkt ar šādu formulu:
mileage_kmpl (AA)
=IF(ISNUMBER(FIND(" ", Z2)), VALUE(LEFT(Z2, FIND(" ", Z2))), 19,3)
engine (AB)
Ievietojiet konvertēšanas kolonnu dzinēja tilpumam:
engine cc (AC)
=IF(ISNUMBER(FIND(" ", AB2)), VALUE(LEFT(AB2, FIND(" ", AB2))), 1248)
max_power (AD)
Pārvērsiet maksimālo jaudu skaitliskā formātā ar šādu formulu:
max power bhp (AE)
=IF(ISNUMBER(FIND(" ", AD2)), VALUE(LEFT(AD2, FIND(" ", AD2))), 82)
torque (AF)
Šai kolonnai ir grūtāk parsējams teksta formāts, jo tajā ir
- divas dažādas mērvienības (N·m un kg·m);
- dažām rindām ir RPM diapazons, bet citām tikai viena vērtība;
- kā arī nozīmīga formāta variācija starp rindām.
Ievietojiet šādas trīs kolonnas, lai:
- pārvērstu visas vērtības vienā mērvienībā (N·m);
- parsētu gan minimālās, gan maksimālās RPM diapazona vērtības, izmantojot identiskas, ja sākotnējā vērtībā nav diapazona;
- izmantotu atbilstošo kolonnu mediānas vērtības, kur nav sākotnējās informācijas.
torque N·m (AG)
=IF(
ISNUMBER(SEARCH("kgm", AF2)),
VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")) * 9,8,
IF(
ISNUMBER(SEARCH("Nm", AF2)),
VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")),
170
))
max torque min RPM (AH)
=IF(
ISNUMBER(SEARCH("rpm", AF2)),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)")),
2000)
max torque max RPM (AI)
=IF(
ISNUMBER(SEARCH("rpm", AF2)),
IF(REGEXMATCH(AF2, "\d-\d"),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*[\d\.,]+-([\d\.,]+)")),
VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)"))
),
3000)
seats (AJ)
Lai gan seats jau ir skaitliskā formātā, varētu būt noderīgi izvilkt no tās divas papildu binārās pazīmes, jo automašīnas vērtība var mainīties nelineāri, ja automašīna nav parasta 5 sēdvietu automašīna.
less than 5 seats (AK)
=IF(AJ2 < 5, 1, 0)
more than 5 seats (AL)
=IF(AJ2 > 5, 1, 0)
Secinājums
Tabula tagad sastāv no 38 kolonnām un vairs neietilpst ekrāna platumā.
Tagad, kad gandrīz katra iespējamā skaitliskā detaļa ir izvilkta no teksta datiem, kas atrodas datu kopā, ir pienācis laiks pāriet uz modeļa veidošanu, kas prognozē selling_price kolonnu. Pārskatiet Korelācijas matrica un Lineārā regresija lapas, lai uzzinātu, kā to izdarīt tieši Google izklājlapās ar TableTorch.
Skatīt arī:
Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.
Pasakiet mums!
Paldies, ka izmantojat vai apsverot izmantot TableTorch!
Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?
Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.
- E-pasts: ___________
- Facebook lapa
- Twitter profils

