Teksta kategoriju kodēšana
Kolonnas ar teksta (kategoriju) datiem, piemēram, darba apraksti, transportlīdzekļu modeļu nosaukumi, māju pazīmes, dažkārt satur galveno informāciju par attiecīgajām rindām. Tomēr ir neiespējami izmantot šos datus statistiskai analīzei, piemēram, regresijas modeļa apmācīšanai vai korelācijas matricas aprēķināšanai, jo tie nav skaitliska rakstura.
TableTorch var atklāt visbiežāk sastopamās vārdu kombinācijas sniegtajā tekstā un pārvērst to šādās skaitliskās formās:
- Binārās kolonnas: ar vērtībām 1 vai 0 atkarībā no konkrētu vārdu klātbūtnes. Ņemiet vērā, ka šīs kolonnas nav savstarpēji izslēdzošas, t.i., vienā rindā var būt vairāki vieninieki, nevis tikai viens.
- Viena kategorijas identifikatora kolonna: Katrai kategorijai tiek piešķirts skaitlisks identifikators un izvēlēts katrai rindai atkarībā no konkrētu vārdu klātbūtnes. Tiek izvēlēta specifiskākā vārdu kombinācija, ja ir vairāk nekā viena piemērota kategorija.
- Frāžu skaitīšanas lapa: Informatīvā lapa, kas satur visas atrastās vārdu kombinācijas ievades diapazonā ar attiecīgajiem skaitiem.
Šis raksts demonstrēs šo TableTorch funkciju izmantošanu transportlīdzekļu
datu kopas kolonnā model name.
Sāciet darbu ar TableTorch
- Instalējiet TableTorch Google izklājlapām, izmantojot Google Workspace Marketplace. Vairāk informācijas par sākotnējo iestatīšanu.
- Noklikšķiniet uz TableTorch ikonas
Google izklājlapu labās puses panelī.
Binārās kolonnas
Atlasiet name kolonnu un noklikšķiniet uz pogas Teksta kategoriju kodēšana.
Datu ielāde un apstrāde var aizņemt kādu laiku. Pēc tam tiks parādītas pirmās 25 visbiežāk sastopamās frāzes atlasei.
Noklikšķiniet uz pogas Binārās kolonnas, lai ievietotu binārās kolonnas atlasītajām kategorijām. Kolonnas parādīsies pēc dažiem mirkļiem.
Lai gan tās var šķist pārmērīgas, binārās kategoriju kolonnas bieži palīdz ievērojami uzlabot lineāro modeļu precizitāti.
Viena identifikatora kolonna
Noklikšķiniet uz pogas Identifikatora kolonna, lai izveidotu tikai vienu papildu kolonnu. Ņemiet vērā, ka ja ievades teksts atbilst vairāk nekā vienai kategorijai, tiks izvēlēts specifiskākais, t.i., garākais variants. Kategoriju identifikatori ir sakārtoti pēc sastopamības biežuma dilstošā secībā, tā ka #1 ir visbiežāk sastopamā kategorija, bet #N-1 ir visretāk sastopamā. Identifikators #N vienmēr tiek piešķirts kategorijai Cits, kas tiek piešķirta rindām, kurām nevarēja piešķirt citu numuru.
Frāžu skaitīšanas lapa
Visbeidzot, noklikšķinot uz pogas Frāžu skaitīšanas lapa, tiks izveidota atsevišķa lapa ar visām identificētajām kategorijām un to attiecīgajiem sastopamības biežumiem.
Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.
Pasakiet mums!
Paldies, ka izmantojat vai apsverot izmantot TableTorch!
Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?
Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.
- E-pasts: ___________
- Facebook lapa
- Twitter profils





