Lineārā regresija

Lineārā regresija izveido modeli, kas prognozē rezultatīvo pazīmi, pamatojoties uz vienu vai vairākām faktoriālajām pazīmēm un to koeficientiem.

Skatīties YouTube: Lineārās regresijas veikšana Google izklājlapā ar TableTorch (video angļu valodā) 7:16

TableTorch piedāvā bagātu funkciju kopumu regresijām:

  • gan parastās, gan svērtās mazāko kvadrātu metodes koeficientu novērtēšanai;
  • trenēšanas-validācijas sadalījumu;
  • k-kārtīgu šķērsvalidāciju (k-fold cross-validation);
  • stratificētu izlases veidošanu;
  • izlases veidošanu ar nomaiņu.

Pēc modeļa izveidošanas TableTorch var ievietot prognožu kolonnu ar formulu rezultatīvās pazīmes novērtēšanai, kā arī izveidot regresijas kopsavilkuma lapu. Formulu pēc tam var tieši izmantot jebkuros citos datos, kas satur tās pašas pazīmes (kolonnas), lai novērtētu rezultatīvo pazīmi.

Turpmākajās sadaļās mēs izveidosim visvienkāršāko regresiju, prognozējot kolonnu selling_price no transportlīdzekļu datu kopas. Lai iegūtu vairāk informācijas par dažādām apmācības un izlases veidošanas opcijām, skatiet lapu par regresiju precizēšanu.

Sāciet darbu ar TableTorch

  1. Instalējiet TableTorch Google izklājlapām, izmantojot Google Workspace Marketplace. Vairāk informācijas par sākotnējo iestatīšanu.
  2. Noklikšķiniet uz TableTorch ikonas Google izklājlapu labās puses panelī.

TableTorch ikona Google izklājlapu labās puses panelī

Modelis ar noklusējuma iestatījumiem

Atlasiet visu lapas diapazonu un noklikšķiniet uz izvēlnes elementa Lineārā regresija TableTorch izvēlnē.

Lineārās regresijas izvēlnes elements TableTorch

Ne-numēriskās kolonnas tiek automātiski izfiltrētas.

Lineārās regresijas izvēlne, TableTorch

Pēdējā kolonna more than 5 seats pēc noklusējuma ir izvēlēta kā rezultatīvā pazīme. Tā kā mūsu mērķis ir prognozēt citas kolonnas vērtību, mainiet rezultatīvo pazīmi uz selling_price šādi:

Rezultatīvās pazīmes izvēle lineārajai regresijai, TableTorch

Nav svarīgi, vai selling_price ir atzīmēta pazīmju sarakstā vai nē. Tā kā tā ir izvēlēta kā rezultatīvā pazīme, TableTorch automātiski izslēgs selling_price no pazīmju saraksta.

Noklikšķiniet uz pogas Apmāciet modeli.

Pogas Apmāciet modeli

Parādīsies šāds rezultātu panelis:

Rezultātu panelis

Panelis parāda atlasīto diapazonu, galvenās apmācības opcijas un, vissvarīgāk, kritiskos apmācības kopsavilkuma rādītājus:

  • Vidējā kvadrātiskā kļūda (RMSE) un vidējā absolūtā kļūda (MAE): visbiežāk izmantotie rādītāji vidējās novirzes mērīšanai starp prognozēm un novērotajām vērtībām.
  • (r-kvadrāts): pazīstams arī kā determinācijas koeficients. Tas norāda rezultatīvās pazīmes variācijas daļu, kuru regresija spēja izskaidrot, pamatojoties uz faktoriālajām pazīmēm.
  • Neizskaidrotās variācijas daļa: vienāda ar 1 - R², tā norāda variācijas daļu, kuru regresija nespēja novērtēt, pamatojoties uz faktoriālajām pazīmēm.

Apskatīsim izveidoto kopsavilkumu sīkāk.

Apmācības kopsavilkums

Ņemiet vērā, ka atkārtota regresija uz tā paša diapazona var radīt atšķirīgus rezultātus datu sajaukšanas dēļ. TableTorch veic datu sajaukšanu pirms un starp iterācijām, lai uzlabotu izveidotā modeļa robustumu.

MAE pārsniedz 260 000, kas ir aptuveni 41% no vidējās pārdošanas cenas 638 272 vai vairāk nekā puse no mediānas cenas 450 000. Atkarībā no mūsu mērķiem, tas var būt vai nebūt pieņemams līmenis. Vēl nav zināms, kuras konkrētās rindas palielina MAE līdz šādiem augstumiem. Iespējams, tas ir tikai dažu dārgu luksusa automašīnu dēļ.

izrādījās aptuveni 0,73, kas atkal var būt pieņemams atkarībā no apstākļiem. Tomēr tas noteikti nav slikts pirmajam mēģinājumam. Mēs neizslēdzām nevienu kolonnu, pamatojoties uz mūsu korelācijas matricas analīzi, neizslēdzām izlecošās vērtības un neprecizējām apmācības un izlases veidošanas opcijas.

Jo labāka ir regresija, jo zemākas ir RMSE un MAE vērtības un jo augstāks ir . Tomēr šie rādītāji identificē dažādus regresijas aspektus. Tos jāņem vērā kopā, pieņemot lēmumu par modeļa pieņemamību.

Šīs citas iespējas tiek izpētītas rakstā par regresiju precizēšanu.

Pagaidām apskatīsim, kā izmantot izveidoto modeli, pirms iedziļināmies precizēšanā.

Prognožu kolonnas ievietošana

Regresijas kopsavilkuma paneļa apakšdaļā ir sadaļa Formula, kas nodrošina pogu Ievietojiet prognozēšanas kolonnu.

Pogas Ievietojiet prognozēšanas kolonnu, TableTorch

Noklikšķiniet uz tās, lai ievietotu kolonnu pēc analizētā diapazona ar formulu, kas novērtē kolonnas selling_price vērtību.

Prognožu kolonnas piemērs

Pirmajai rindai formula izskatīsies šādi:

=639827.171051266 + ((B2 - 0.301181102362204) / 0.458799459127852) * -13624.7005345943 + ((C2 - 0.174089566929133) / 0.379209812049647) * -78332.2214570537 + ((D2 - 0.0962106299212598) / 0.294898023096581) * -40904.9165485197 + ((E2 - 0.0949803149606299) / 0.293205783883989) * -54328.4653464246 + ...

Tā kā standarta mērogošana pēc noklusējuma ir iespējota, TableTorch ir apmācījis modeli uz mērogotiem datiem. Tāpēc prognožu formula arī satur mērogošanas instrukcijas un tai ir šāds formāts:

=modelIntercept +
  ((Col1 - Col1Mean) / Col1StdDev) * Col1Coefficient +
  ((Col2 - Col2Mean) / Col2StdDev) * Col2Coefficient +
  ... +
  ((ColN - ColNMean) / ColNStdDev) * ColNCoefficient

Tagad ir iespējams veikt dažāda veida analīzes uz prognožu kolonnas. Piemēram, vērtēt kļūdas noteiktiem slāņiem, lai labāk izprastu modeļa stiprās un vājās puses vai izstrādātu izmaiņas datos vai apmācības opcijās, lai iegūtu labāku modeli.

Turklāt, ja modelis tiek uzskatīts par pieņemamu, to ir viegli piemērot jauniem datiem, vienkārši kopējot un ielīmējot formulu citā diapazonā ar identiskiem kolonnu struktūru. Piemēram, ja mums ir jauni automašīnu dati bez noteiktas pārdošanas cenas, mēs varētu izmantot modeli, lai mums palīdzētu uzminēt cenu.

Kopsavilkuma lapas pievienošana

Vēl viena noderīga regresijas rezultātu paneļa funkcija ir poga Pievienojiet kopsavilkuma lapu sadaļā Kopsavilkums.

Pogas Pievienojiet kopsavilkuma lapu

Noklikšķinot uz tās, tiks ievietota jauna lapa ar detalizētāku regresijas kopsavilkumu.

Regresijas kopsavilkuma lapa

Papildus rādītājiem, piemēram, R² un RMSE, kas ir arī regresijas rezultātu panelī, kopsavilkuma lapa parāda:

  • Modeļa konstanti (brīvo locekli). Šī ir vērtība, ko nevarēja izskaidrot tikai ar faktoriālajām pazīmēm.
  • Katras pazīmes koeficientu un, ja standarta mērogošana bija iespējota, arī to vidējos rādītājus un standartnovirzes. Koeficienti ir izcelti tā, lai palīdzētu ātri identificēt būtiskākos.

Secinājums

TableTorch izveido izmantojamu modeli pat ar noklusējuma iestatījumiem. Tomēr tam ir arī daudzas noderīgas opcijas regresijas veiktspējas uzlabošanai. Skatiet lapu par regresiju precizēšanu, lai pārskatītu arī šīs opcijas.

Skatīt arī:

Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.

Pasakiet mums!

Paldies, ka izmantojat vai apsverot izmantot TableTorch!

Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?

Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.