Textkategorien-Kodierung

Spalten mit kategorischen Textdaten — etwa Berufsbezeichnungen, Fahrzeugmodellnamen oder Hauseigenschaften — enthalten häufig wichtige Informationen über die jeweiligen Zeilen. Es ist jedoch nicht möglich, diese Daten direkt für statistische Analysen wie die Anpassung eines Regressionsmodells oder die Berechnung einer Korrelationsmatrix zu verwenden, da sie nicht numerisch sind.

TableTorch kann die häufigsten Wortkombinationen im bereitgestellten Text erkennen und diese in folgende numerische Formen umwandeln:

  • Binäre Spalten: Sie enthalten als Werte 1 oder 0, abhängig vom Vorkommen bestimmter Wörter. Beachten Sie, dass diese Spalten sich nicht gegenseitig ausschließen — eine einzelne Zeile kann also mehrere Einsen enthalten und nicht nur eine.
  • Einzelne Kategorie-Kennungsspalte: Jeder Kategorie wird eine numerische Kennung zugewiesen, die anhand der vorkommenden Wörter für jede Zeile ausgewählt wird. Wenn mehrere Kategorien passen, wird die spezifischste Wortkombination gewählt.
  • Phrasen-Zählblatt: Ein Informationsblatt mit allen im Eingabebereich gefundenen Wortkombinationen samt ihrer jeweiligen Häufigkeit.

Dieser Artikel zeigt die Verwendung dieser TableTorch-Funktionen anhand der Spalte model name des Fahrzeugdatensatzes.

Erste Schritte mit TableTorch

  1. Installieren Sie TableTorch für Google Tabellen über den Google Workspace Marketplace. Weitere Informationen zur Ersteinrichtung.
  2. Klicken Sie auf das TableTorch-Symbol im rechten Seitenbereich von Google Tabellen.

TableTorch-Symbol im rechten Seitenbereich von Google Tabellen

Binäre Spalten

Wählen Sie die Spalte name aus und klicken Sie auf die Schaltfläche Text categories encoding.

Menüpunkt für Textkategorien-Kodierung in TableTorch

Das Laden und Verarbeiten der Daten kann einige Zeit in Anspruch nehmen. Anschließend werden die 25 häufigsten Phrasen zur Auswahl angezeigt.

Beispiel für Textkategorienerkennung in TableTorch

Klicken Sie auf die Schaltfläche Binary columns, um die binären Spalten für die ausgewählten Kategorien einzufügen. Die Spalten erscheinen kurz darauf.

Beispiel für binäre Kategoriespalten

Auch wenn sie auf den ersten Blick zu zahlreich erscheinen mögen, tragen binäre Kategoriespalten oft erheblich zur Verbesserung der Genauigkeit linearer Modelle bei.

Einzelne Identifikationsspalte

Klicken Sie auf die Schaltfläche Single identifier column, um nur eine zusätzliche Spalte zu erzeugen. Beachten Sie: Trifft der Eingabetext auf mehrere Kategorien zu, wird die spezifischste, also längste, Variante gewählt. Die Kategoriekennungen sind absteigend nach Häufigkeit sortiert, sodass #1 die am häufigsten vorkommende Kategorie ist und #N−1 die seltenste. Die Kennung #N wird immer der Kategorie Other zugewiesen, die jenen Zeilen zugeordnet wird, denen keine andere Nummer zugewiesen werden konnte.

Beispiel für einzelne Kategorieidentifikationsspalte

Phrasen-Zählblatt

Ein Klick auf die Schaltfläche Phrase counting sheet erzeugt schließlich ein separates Blatt mit allen erkannten Kategorien und ihrer jeweiligen Häufigkeit.

Beispiel für ein Phrasen-Zählblatt

Google, Google Tabellen, Google Workspace und YouTube sind Marken von Google LLC. Gaujasoft TableTorch ist nicht mit Google verbunden und wird nicht von Google unterstützt.

Ihr Feedback ist uns wichtig!

Vielen Dank, dass Sie TableTorch verwenden oder in Betracht ziehen!

Beschreibt diese Seite die Funktion korrekt und verständlich? Funktioniert sie tatsächlich so, wie hier beschrieben, oder gibt es ein Problem? Haben Sie Verbesserungsvorschläge?

Bei Fragen können Sie sich jederzeit gerne an uns wenden.