Datu mērogošana

TableTorch Mērogošana rīks mērogo datus atbilstoši norādītajām opcijām un ievieto atsevišķu lapu ar rezultātiem. Tas atbalsta vairākas skaitlisko datu mērogošanas metodes, kas var palīdzēt sasniegt izcilus rezultātus ar lineārajām regresijām, kā arī citiem statistiskās analīzes rīkiem.

Mēs izmantosim transportlīdzekļu datu kopu kā piemēru un pārskatīsim dažādas mērogošanas opcijas nākamajās sadaļās.

Sāciet darbu ar TableTorch

  1. Instalējiet TableTorch Google izklājlapām, izmantojot Google Workspace Marketplace. Vairāk informācijas par sākotnējo iestatīšanu.
  2. Noklikšķiniet uz TableTorch ikonas Google izklājlapu labās puses panelī.

TableTorch ikona Google izklājlapu labās puses panelī

Pārskats

Atlasiet visu lapas diapazonu un noklikšķiniet uz izvēlnes vienuma Mērogošana TableTorch iekšienē.

Mērogošanas izvēlnes vienums TableTorch iekšienē

Parādīsies šāda izvēlne:

Mērogošanas konfigurācija, TableTorch

Pirmā sadaļa ļauj izvēlēties lietojamos mērogošanas algoritmus:

  • Standarta mērogošana: atņem diapazona vidējo vērtību no rindas vērtības un dala rezultātu ar diapazona standartnovirzi.

    v = (v0 - mean(V)) / stdDev(V)

    Mērogoto vērtību var interpretēt kā standartnoviržu skaitu no vidējās vērtības. Ievērības cienīgi, šis skaits var būt arī negatīvs, jo mērogotais diapazons kļūst centrēts ap nulli. Standarta mērogošana tiek izmantota tik bieži pirms regresijām, ka tā ir integrēta TableTorch regresijās un ir iespējota pēc noklusējuma. Tādējādi nav nepieciešams izmantot atsevišķo Scaling rīku pirms regresiju veikšanas, ja vienīgā nepieciešamā mērogošanas metode ir standarta mērogošana; to var darīt regresiju rīkā tikpat labi.

  • Procentiles rangs: aizvieto vērtību ar tās atbilstošo percentīli kopā. Tiek izmantota daļskaitļu ranžēšana, t.i., vienādiem rādītājiem tiek piešķirts to vidējais rangs.

  • Kvartiles: ievieto trīs kolonnas Q2, Q3 un Q4 ar bināru vērtību (1 vai 0), identificējot, vai sākotnējā vērtība atradās norādītajā kopas ceturksnī vai nē. Q1 trūkst, lai izvairītos no augstiem korelācijas koeficientiem starp pazīmēm un tādējādi atvieglotu regresijas. Ja plānotā datu analīze nav regresija un Q1 ir nepieciešams, to var viegli ieviest ar šādu formulu:

    =IF(AND(Q2Col = 0, Q3Col = 0, Q4Col = 0), 1, 0)
    
  • Logaritmiskā skala | log(1 + x): piemēro parādīto formulu kopas vērtībām. Tas var būt noderīgi regresijām, ja iepriekš ir zināms, ka norādītajām pazīmēm ir logaritmisks sadalījums.

Nākamajā sadaļā ir atlasītājs, lai izvēlētos kolonnu atlases režīmu: vai piemērot katru no atzīmētajiem skalatoriem uz tām pašām kolonnām vai izvēlēties kolonnas atsevišķi katram skalatoram.

Nākamās divas vai vairāk sadaļas ļauj izvēlēties sākotnējās kolonnas, kas jāiekļauj izveidotā datu kopā, kā arī kolonnas, kas jānodod caur skalatoriem.

Rīka pēdējā sadaļa, Krāsošana, ļauj iespējot vienu vai vairākas krāsu shēmas, ko piemērot kolonnām ar mērogotiem datiem. Ja ir iespējota vairāk nekā viena shēma, tās mainīsies, lai būtu vieglāk atšķirt kolonnas izveidotajā lapā.

Piemērs ar transportlīdzekļu datu kopu

Mērogosim dažas kolonnas un apskatīsim, vai tas varētu palīdzēt mums uzlabot regresijas veiktspēju transportlīdzekļu datu kopas kolonnai selling_price.

  1. Atzīmējiet Standarta mērogošana, Procentiles rangs un Kvartiles algoritmu sadaļā.

  2. Atlasiet Katrai metodei atsevišķi opciju kolonnu izvēles režīmā.

  3. Atlasiet name un selling_price izvēlnē Sākotnējās vērtības kolonnas.

  4. Atlasiet šādas kolonnas Standarta mērogošana:
    • year
    • max power bhp
    • max torque min RPM
  5. Priekš Procentiles rangs:
    • mileage_kmpl
    • engine cc
  6. Priekš Kvartiles:
    • km_driven
    • torque N·m
  7. Noklikšķiniet uz pogas Mērogot datus, lai izveidotu lapu ar mērogotām vērtībām.

Mērogotā datu kopa izskatīsies šādi:

Mērogotās datu kopas piemērs

Ņemiet vērā, ka mērogotās kolonnas ir krāsotas saskaņā ar noklusējuma krāsu shēmu, kas var palīdzēt ar ātrāku vizuālo datu modeļu identificēšanu.

Formulas

TableTorch kopē datus rezultātu datu kopā pēc vērtībām, t.i., formulas netiek kopētas. Tas tiek darīts, lai paātrinātu procesu un izvairītos no kvotu pārsniegšanas. Tiek uzskatīts, ka izveidotā lapa ir pagaidu rakstura un ir noderīga turpmākām regresijām vai citām datu manipulācijām, nevis formulu eksperimentiem.

Secinājums

Pazīmju mērogošana veidā, kas rada maksimālo korelācijas koeficientu ar etiķeti, var palīdzēt uzlabot lineārās regresijas veiktspēju.

Skatīt arī Vikipēdijā (angļu valodā):

Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.

Pasakiet mums!

Paldies, ka izmantojat vai apsverot izmantot TableTorch!

Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?

Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.