Lineārā regresija
Lineārā regresija izveido modeli, kas prognozē rezultatīvo pazīmi, pamatojoties uz vienu vai vairākām faktoriālajām pazīmēm un to koeficientiem.
TableTorch piedāvā bagātu funkciju kopumu regresijām:
- gan parastās, gan svērtās mazāko kvadrātu metodes koeficientu novērtēšanai;
- trenēšanas-validācijas sadalījumu;
- k-kārtīgu šķērsvalidāciju (k-fold cross-validation);
- stratificētu izlases veidošanu;
- izlases veidošanu ar nomaiņu.
Pēc modeļa izveidošanas TableTorch var ievietot prognožu kolonnu ar formulu rezultatīvās pazīmes novērtēšanai, kā arī izveidot regresijas kopsavilkuma lapu. Formulu pēc tam var tieši izmantot jebkuros citos datos, kas satur tās pašas pazīmes (kolonnas), lai novērtētu rezultatīvo pazīmi.
Turpmākajās sadaļās mēs izveidosim visvienkāršāko regresiju, prognozējot kolonnu selling_price no transportlīdzekļu datu kopas. Lai iegūtu vairāk informācijas par dažādām apmācības un izlases veidošanas opcijām, skatiet lapu par regresiju precizēšanu.
- Sāciet darbu ar TableTorch
- Modelis ar noklusējuma iestatījumiem
- Prognožu kolonnas ievietošana
- Kopsavilkuma lapas pievienošana
- Secinājums
Sāciet darbu ar TableTorch
- Instalējiet TableTorch Google izklājlapām, izmantojot Google Workspace Marketplace. Vairāk informācijas par sākotnējo iestatīšanu.
- Noklikšķiniet uz TableTorch ikonas
Google izklājlapu labās puses panelī.
Modelis ar noklusējuma iestatījumiem
Atlasiet visu lapas diapazonu un noklikšķiniet uz izvēlnes elementa Lineārā regresija TableTorch izvēlnē.
Ne-numēriskās kolonnas tiek automātiski izfiltrētas.
Pēdējā kolonna more than 5 seats pēc noklusējuma ir izvēlēta kā rezultatīvā pazīme.
Tā kā mūsu mērķis ir prognozēt citas kolonnas vērtību,
mainiet rezultatīvo pazīmi uz selling_price šādi:

Nav svarīgi, vai selling_price ir atzīmēta pazīmju sarakstā vai nē.
Tā kā tā ir izvēlēta kā rezultatīvā pazīme, TableTorch automātiski izslēgs
selling_price no pazīmju saraksta.
Noklikšķiniet uz pogas Apmāciet modeli.
![]()
Parādīsies šāds rezultātu panelis:
Panelis parāda atlasīto diapazonu, galvenās apmācības opcijas un, vissvarīgāk, kritiskos apmācības kopsavilkuma rādītājus:
- Vidējā kvadrātiskā kļūda (RMSE) un vidējā absolūtā kļūda (MAE): visbiežāk izmantotie rādītāji vidējās novirzes mērīšanai starp prognozēm un novērotajām vērtībām.
- R² (r-kvadrāts): pazīstams arī kā determinācijas koeficients. Tas norāda rezultatīvās pazīmes variācijas daļu, kuru regresija spēja izskaidrot, pamatojoties uz faktoriālajām pazīmēm.
- Neizskaidrotās variācijas daļa: vienāda ar
1 - R², tā norāda variācijas daļu, kuru regresija nespēja novērtēt, pamatojoties uz faktoriālajām pazīmēm.
Apskatīsim izveidoto kopsavilkumu sīkāk.

Ņemiet vērā, ka atkārtota regresija uz tā paša diapazona var radīt atšķirīgus rezultātus datu sajaukšanas dēļ. TableTorch veic datu sajaukšanu pirms un starp iterācijām, lai uzlabotu izveidotā modeļa robustumu.
MAE pārsniedz 260 000, kas ir aptuveni 41% no vidējās pārdošanas cenas 638 272 vai vairāk nekā puse no mediānas cenas 450 000. Atkarībā no mūsu mērķiem, tas var būt vai nebūt pieņemams līmenis. Vēl nav zināms, kuras konkrētās rindas palielina MAE līdz šādiem augstumiem. Iespējams, tas ir tikai dažu dārgu luksusa automašīnu dēļ.
R² izrādījās aptuveni 0,73, kas atkal var būt pieņemams atkarībā no apstākļiem. Tomēr tas noteikti nav slikts pirmajam mēģinājumam. Mēs neizslēdzām nevienu kolonnu, pamatojoties uz mūsu korelācijas matricas analīzi, neizslēdzām izlecošās vērtības un neprecizējām apmācības un izlases veidošanas opcijas.
Jo labāka ir regresija, jo zemākas ir RMSE un MAE vērtības un jo augstāks ir R². Tomēr šie rādītāji identificē dažādus regresijas aspektus. Tos jāņem vērā kopā, pieņemot lēmumu par modeļa pieņemamību.
Šīs citas iespējas tiek izpētītas rakstā par regresiju precizēšanu.
Pagaidām apskatīsim, kā izmantot izveidoto modeli, pirms iedziļināmies precizēšanā.
Prognožu kolonnas ievietošana
Regresijas kopsavilkuma paneļa apakšdaļā ir sadaļa Formula, kas nodrošina pogu Ievietojiet prognozēšanas kolonnu.

Noklikšķiniet uz tās, lai ievietotu kolonnu pēc analizētā diapazona ar formulu,
kas novērtē kolonnas selling_price vērtību.

Pirmajai rindai formula izskatīsies šādi:
=639827.171051266 + ((B2 - 0.301181102362204) / 0.458799459127852) * -13624.7005345943 + ((C2 - 0.174089566929133) / 0.379209812049647) * -78332.2214570537 + ((D2 - 0.0962106299212598) / 0.294898023096581) * -40904.9165485197 + ((E2 - 0.0949803149606299) / 0.293205783883989) * -54328.4653464246 + ...
Tā kā standarta mērogošana pēc noklusējuma ir iespējota, TableTorch ir apmācījis modeli uz mērogotiem datiem. Tāpēc prognožu formula arī satur mērogošanas instrukcijas un tai ir šāds formāts:
=modelIntercept +
((Col1 - Col1Mean) / Col1StdDev) * Col1Coefficient +
((Col2 - Col2Mean) / Col2StdDev) * Col2Coefficient +
... +
((ColN - ColNMean) / ColNStdDev) * ColNCoefficient
Tagad ir iespējams veikt dažāda veida analīzes uz prognožu kolonnas. Piemēram, vērtēt kļūdas noteiktiem slāņiem, lai labāk izprastu modeļa stiprās un vājās puses vai izstrādātu izmaiņas datos vai apmācības opcijās, lai iegūtu labāku modeli.
Turklāt, ja modelis tiek uzskatīts par pieņemamu, to ir viegli piemērot jauniem datiem, vienkārši kopējot un ielīmējot formulu citā diapazonā ar identiskiem kolonnu struktūru. Piemēram, ja mums ir jauni automašīnu dati bez noteiktas pārdošanas cenas, mēs varētu izmantot modeli, lai mums palīdzētu uzminēt cenu.
Kopsavilkuma lapas pievienošana
Vēl viena noderīga regresijas rezultātu paneļa funkcija ir poga Pievienojiet kopsavilkuma lapu sadaļā Kopsavilkums.
![]()
Noklikšķinot uz tās, tiks ievietota jauna lapa ar detalizētāku regresijas kopsavilkumu.
Papildus rādītājiem, piemēram, R² un RMSE, kas ir arī regresijas rezultātu panelī, kopsavilkuma lapa parāda:
- Modeļa konstanti (brīvo locekli). Šī ir vērtība, ko nevarēja izskaidrot tikai ar faktoriālajām pazīmēm.
- Katras pazīmes koeficientu un, ja standarta mērogošana bija iespējota, arī to vidējos rādītājus un standartnovirzes. Koeficienti ir izcelti tā, lai palīdzētu ātri identificēt būtiskākos.
Secinājums
TableTorch izveido izmantojamu modeli pat ar noklusējuma iestatījumiem. Tomēr tam ir arī daudzas noderīgas opcijas regresijas veiktspējas uzlabošanai. Skatiet lapu par regresiju precizēšanu, lai pārskatītu arī šīs opcijas.
Skatīt arī:
- Lineārās regresijas raksts Vikipēdijā (angļu valodā)
- Parastās mazāko kvadrātu raksts Vikipēdijā (angļu valodā)
Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.
Pasakiet mums!
Paldies, ka izmantojat vai apsverot izmantot TableTorch!
Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?
Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.
- E-pasts: ___________
- Facebook lapa
- Twitter profils




