Teksta kategoriju kodēšana

Kolonnas ar teksta (kategoriju) datiem, piemēram, darba apraksti, transportlīdzekļu modeļu nosaukumi, māju pazīmes, dažkārt satur galveno informāciju par attiecīgajām rindām. Tomēr ir neiespējami izmantot šos datus statistiskai analīzei, piemēram, regresijas modeļa apmācīšanai vai korelācijas matricas aprēķināšanai, jo tie nav skaitliska rakstura.

TableTorch var atklāt visbiežāk sastopamās vārdu kombinācijas sniegtajā tekstā un pārvērst to šādās skaitliskās formās:

  • Binārās kolonnas: ar vērtībām 1 vai 0 atkarībā no konkrētu vārdu klātbūtnes. Ņemiet vērā, ka šīs kolonnas nav savstarpēji izslēdzošas, t.i., vienā rindā var būt vairāki vieninieki, nevis tikai viens.
  • Viena kategorijas identifikatora kolonna: Katrai kategorijai tiek piešķirts skaitlisks identifikators un izvēlēts katrai rindai atkarībā no konkrētu vārdu klātbūtnes. Tiek izvēlēta specifiskākā vārdu kombinācija, ja ir vairāk nekā viena piemērota kategorija.
  • Frāžu skaitīšanas lapa: Informatīvā lapa, kas satur visas atrastās vārdu kombinācijas ievades diapazonā ar attiecīgajiem skaitiem.

Šis raksts demonstrēs šo TableTorch funkciju izmantošanu transportlīdzekļu datu kopas kolonnā model name.

Sāciet darbu ar TableTorch

  1. Instalējiet TableTorch Google izklājlapām, izmantojot Google Workspace Marketplace. Vairāk informācijas par sākotnējo iestatīšanu.
  2. Noklikšķiniet uz TableTorch ikonas Google izklājlapu labās puses panelī.

TableTorch ikona Google izklājlapu labās puses panelī

Binārās kolonnas

Atlasiet name kolonnu un noklikšķiniet uz pogas Teksta kategoriju kodēšana.

Teksta kategoriju kodēšanas izvēlnes vienums TableTorch iekšienē

Datu ielāde un apstrāde var aizņemt kādu laiku. Pēc tam tiks parādītas pirmās 25 visbiežāk sastopamās frāzes atlasei.

TableTorch teksta kategoriju atklāšanas piemērs

Noklikšķiniet uz pogas Binārās kolonnas, lai ievietotu binārās kolonnas atlasītajām kategorijām. Kolonnas parādīsies pēc dažiem mirkļiem.

Binārās kategoriju kolonnas piemērs

Lai gan tās var šķist pārmērīgas, binārās kategoriju kolonnas bieži palīdz ievērojami uzlabot lineāro modeļu precizitāti.

Viena identifikatora kolonna

Noklikšķiniet uz pogas Identifikatora kolonna, lai izveidotu tikai vienu papildu kolonnu. Ņemiet vērā, ka ja ievades teksts atbilst vairāk nekā vienai kategorijai, tiks izvēlēts specifiskākais, t.i., garākais variants. Kategoriju identifikatori ir sakārtoti pēc sastopamības biežuma dilstošā secībā, tā ka #1 ir visbiežāk sastopamā kategorija, bet #N-1 ir visretāk sastopamā. Identifikators #N vienmēr tiek piešķirts kategorijai Cits, kas tiek piešķirta rindām, kurām nevarēja piešķirt citu numuru.

Vienas kategorijas identifikatora kolonnas piemērs

Frāžu skaitīšanas lapa

Visbeidzot, noklikšķinot uz pogas Frāžu skaitīšanas lapa, tiks izveidota atsevišķa lapa ar visām identificētajām kategorijām un to attiecīgajiem sastopamības biežumiem.

Frāžu skaitīšanas lapas piemērs

Google, Google Izklājlapas, Google Workspace un YouTube ir Google LLC preču zīmes. Gaujasoft TableTorch nav saistīts ar Google un to neveicina Google.

Pasakiet mums!

Paldies, ka izmantojat vai apsverot izmantot TableTorch!

Vai šī lapa precīzi un atbilstoši apraksta attiecīgo funkciju? Vai tā patiešām darbojas tā, kā šeit izskaidrots, vai arī ir kāda problēma? Vai jums ir kādi ieteikumi, kā mēs varētu uzlaboties?

Lūdzu, paziņojiet mums, ja jums ir kādi jautājumi.