Transportlīdzekļu datu kopa

Kaggle nodrošina transportlīdzekļu datu kopu, kas ir ļoti labi piemērota lineārām regresijām, un tāpēc tā tiek izmantota visā šajā dokumentācijā demonstrācijas nolūkiem.

Tomēr nenumēriskās kolonnas nevar izmantot statistiskā analīzē. Tāpēc mēs izveidojām modificētu datu kopas versiju ar teksta vērtībām, kas pārvērstas skaitliskās ar atbilstošām Google izklājlapu formulām.

Ja vēlaties eksperimentēt ar piemēriem, kas sniegti TableTorch funkciju dokumentācijā, ir iespējams vai nu:

  • lejupielādēt un kopēt savā Google Drive modificētu datu kopas kopiju ar visām papildu konvertēšanas kolonnām. Tā ir licencēta saskaņā ar to pašu Open Data Commons’ Database Contents License (DbCL) v1.0 kā sākotnējā;

    vai

  • lejupielādēt sākotnējo datu kopu no Kaggle un atsaukties uz zemāk esošajām instrukcijām, lai ieviestu tās pašas modifikācijas.

Datu kopas sagatavošana

Arhīvs satur failu Car details v3.csv, kas satur visu nepieciešamo informāciju. Tādas kolonnas kā year, selling_price, km_driven, seats ir skaitliskā formātā un neprasa nekādas turpmākas darbības. Tomēr kolonnas name, fuel, seller_type, transmission, owner, mileage, engine, max_power un torque ir teksta formātā un prasa konvertēšanu.

Nākamās sadaļas apspriež katras kolonnas konvertēšanu, burts iekavās ir kolonnas lapas līmeņa identifikators. Sniegtās formulas ir piemērotas pirmajai datu rindai. Google izklājlapas parasti ļauj automātiski pielietot formulu pārējām rindām, nospiežot Ctrl+Enter pēc formulas ievadīšanas pirmajai rindai.

name (A)

name ir īpaši interesanta kolonna, jo tajā nav nekādu skaitļu un tā drīzāk identificē automašīnas modeli brīvā formā. Tomēr, tā kā automašīnas modeļa pazīme var būt nozīmīga regresijā, būtu izšķērdīgi nemēģināt izvilkt vismaz kādu skaitlisku informāciju no tās. Viens veids, kā to izdarīt, ir identificēt visbiežāk sastopamos vārdus starp nosaukumiem un pievienot kolonnu ar bināru vērtību, t.i., 1, ja nosaukums satur vārdu, un 0, ja nesatur.

Top 10 šādi vārdi datu kopai ir Maruti, Hyundai, Swift, Mahindra, Tata, BSIV, Toyota, Honda, Alto, Ford. Katram no šiem vārdiem ievietojiet atsevišķu kolonnu ar atbilstošu formulu, kā ilustrēts zemāk:

Maruti (B)

=IF(ISNUMBER(FIND("Maruti", A2)), 1, 0)

Hyundai (C)

=IF(ISNUMBER(FIND("Hyundai", A2)), 1, 0)

Swift (D)

=IF(ISNUMBER(FIND("Swift", A2)), 1, 0)

Mahindra (E)

=IF(ISNUMBER(FIND("Mahindra", A2)), 1, 0)

Tata (F)

=IF(ISNUMBER(FIND("Tata", A2)), 1, 0)

BSIV (G)

=IF(ISNUMBER(FIND("BSIV", A2)), 1, 0)

Toyota (H)

=IF(ISNUMBER(FIND("Toyota", A2)), 1, 0)

Honda (I)

=IF(ISNUMBER(FIND("Honda", A2)), 1, 0)

Alto (J)

=IF(ISNUMBER(FIND("Alto", A2)), 1, 0)

Ford (K)

=IF(ISNUMBER(FIND("Ford", A2)), 1, 0)

Lapai tagad ir 10 papildu skaitliski apstrādājamas kolonnas, kas identificē automašīnu ražotājus.

Transportlīdzekļu datu kopa ar automašīnu ražotāju identificējošām kolonnām

fuel (O)

Datu kopā ir daži dažādi degvielas veidi, tomēr lielākā daļa ierakstu ir viens no diviem: dīzelis vai benzīns. Izveidojiet divas kolonnas ar šādām formulām:

diesel (P)

=IF(O2="Diesel", 1, 0)

petrol (Q)

=IF(O2="Petrol", 1, 0)

seller_type (R)

Datu kopā ir trīs unikāli pārdevēju veidi: Individual, Dealer, un Trustmark Dealer. Lielākā daļa ierakstu ir Individual veida, tāpēc ir jēga izvilkt pārējos divus variantus atsevišķās kolonnās. Ievietojiet divas jaunas kolonnas:

from dealer (S)

=IF(R2="Dealer", 1, 0)

from trustmark dealer (T)

=IF(R2="Trustmark Dealer", 1, 0)

transmission (U)

Transmisija ir vai nu Manual, vai Automatic, tāpēc pietiek ar vienu papildu kolonnu, lai izvilktu skaitlisku vērtību.

automatic (V)

=IF(U2="Automatic", 1, 0)

owner (W)

Izvelciet vēl divas kolonnas no owner kolonnas Second Owner un jebko citu, kas nav First Owner vai Second Owner. Retās vērtības tiek ignorētas vienkāršībai.

2nd owner (X)

=IF(W2="Second Owner", 1, 0)

3+ owners (X)

=IF(OR(W2="First Owner", W2="Second Owner"), 0, 1)

mileage (Z)

Šī ir pirmā kolonna ar salīmētu skaitlisku vērtību un mērvienību. Turklāt dažiem ierakstiem trūkst jebkādas vērtības, tāpēc ir jēga tos papildināt ar mediānas kilometrāžu, lai izvairītos no regresijas mulsinīšanas.

Atšķirību starp kmpl un km/kg vienībām var ignorēt vienkāršībai, un skaitlisko vērtību var izvilkt ar šādu formulu:

mileage_kmpl (AA)

=IF(ISNUMBER(FIND(" ", Z2)), VALUE(LEFT(Z2, FIND(" ", Z2))), 19,3)

engine (AB)

Ievietojiet konvertēšanas kolonnu dzinēja tilpumam:

engine cc (AC)

=IF(ISNUMBER(FIND(" ", AB2)), VALUE(LEFT(AB2, FIND(" ", AB2))), 1248)

max_power (AD)

Pārvērsiet maksimālo jaudu skaitliskā formātā ar šādu formulu:

max power bhp (AE)

=IF(ISNUMBER(FIND(" ", AD2)), VALUE(LEFT(AD2, FIND(" ", AD2))), 82)

torque (AF)

Šai kolonnai ir grūtāk parsējams teksta formāts, jo tajā ir

  • divas dažādas mērvienības (N·m un kg·m);
  • dažām rindām ir RPM diapazons, bet citām tikai viena vērtība;
  • kā arī nozīmīga formāta variācija starp rindām.

Ievietojiet šādas trīs kolonnas, lai:

  • pārvērstu visas vērtības vienā mērvienībā (N·m);
  • parsētu gan minimālās, gan maksimālās RPM diapazona vērtības, izmantojot identiskas, ja sākotnējā vērtībā nav diapazona;
  • izmantotu atbilstošo kolonnu mediānas vērtības, kur nav sākotnējās informācijas.

torque N·m (AG)

=IF(
    ISNUMBER(SEARCH("kgm", AF2)),
    VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")) * 9,8,
    IF(
        ISNUMBER(SEARCH("Nm", AF2)),
        VALUE(REGEXEXTRACT(AF2, "[\d\.,]+")),
        170
    ))

max torque min RPM (AH)

=IF(
    ISNUMBER(SEARCH("rpm", AF2)),
    VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)")),
    2000)

max torque max RPM (AI)

=IF(
    ISNUMBER(SEARCH("rpm", AF2)),
    IF(REGEXMATCH(AF2, "\d-\d"),
        VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*[\d\.,]+-([\d\.,]+)")),
        VALUE(REGEXEXTRACT(AF2, "(?i)[^\d\.,]*[\d\.,]+[^\d\.,]*([\d\.,]+)"))
    ),
    3000)

seats (AJ)

Lai gan seats jau ir skaitliskā formātā, varētu būt noderīgi izvilkt no tās divas papildu binārās pazīmes, jo automašīnas vērtība var mainīties nelineāri, ja automašīna nav parasta 5 sēdvietu automašīna.

less than 5 seats (AK)

=IF(AJ2 < 5, 1, 0)

more than 5 seats (AL)

=IF(AJ2 > 5, 1, 0)

Secinājums

Tabula tagad sastāv no 38 kolonnām un vairs neietilpst ekrāna platumā.

Transportlīdzekļu datu kopa ar visām papildu pazīmēm

Tagad, kad gandrīz katra iespējamā skaitliskā detaļa ir izvilkta no teksta datiem, kas atrodas datu kopā, ir pienācis laiks pāriet uz modeļa veidošanu, kas prognozē selling_price kolonnu. Pārskatiet Korelācijas matrica un Lineārā regresija lapas, lai uzzinātu, kā to izdarīt tieši Google izklājlapās ar TableTorch.

Skatīt arī:

Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.

Pasakiet mums!

Paldies, ka izmantojat vai apsverot izmantot TableTorch!

Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?

Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.