Кодирование текстовых категорий
Столбцы с текстовыми (категориальными) данными, такими как описания должностей, названия моделей автомобилей, характеристики домов, иногда содержат ключевую информацию о соответствующих строках. Однако невозможно использовать эти данные для статистического анализа, такого как построение регрессионной модели или вычисление корреляционной матрицы, поскольку они не являются числовыми по своей природе.
TableTorch может обнаруживать наиболее распространённые словосочетания в предоставленном тексте и преобразовывать их в следующие числовые формы:
- Бинарные столбцы: имеющие значение 1 или 0 в зависимости от наличия определённых слов. Обратите внимание, что эти столбцы не являются взаимоисключающими, т.е. одна строка может иметь несколько единиц, а не только одну.
- Один столбец идентификатора категории: числовой идентификатор присваивается каждой категории и выбирается для каждой строки в зависимости от наличия определённых слов. Если подходит более одной категории, выбирается наиболее конкретное словосочетание.
- Лист подсчёта фраз: информационный лист, содержащий все найденные словосочетания в исходном диапазоне с их соответствующими частотами.
Эта статья продемонстрирует использование функций TableTorch на
столбце model name из набора данных об автомобилях.
Запуск TableTorch
- Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
- Нажмите на иконку
TableTorch на правой боковой панели Google Таблиц.
Бинарные столбцы
Выберите столбец name и нажмите кнопку Кодирование текстовых категорий.
Загрузка и обработка данных может занять некоторое время, после чего будут представлены первые 25 наиболее часто встречающихся фраз для выбора.
Нажмите кнопку Бинарные столбцы, чтобы вставить бинарные столбцы для выбранных категорий. Столбцы появятся через несколько мгновений.
Хотя они могут казаться избыточными, бинарные столбцы категорий часто помогают значительно улучшить точность линейных моделей.
Один столбец идентификатора
Нажмите кнопку Столбец идентификатора, чтобы создать только один дополнительный столбец. Обратите внимание, что если исходный текст соответствует более чем одной категории, будет выбран наиболее конкретный, т.е. самый длинный вариант. Идентификаторы категорий отсортированы по частоте встречаемости в порядке убывания, так что #1 — наиболее часто встречающаяся категория, тогда как #N-1 — наименее распространённая. Идентификатор #N всегда присваивается категории Другое, которая назначается строкам, которым не может быть присвоен никакой другой номер.
Лист подсчёта фраз
Наконец, нажатие кнопки Лист подсчёта фраз создаст отдельный лист со всеми идентифицированными категориями и их соответствующими частотами встречаемости.
Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.
Свяжитесь с нами!
Спасибо, что используете или рассматриваете TableTorch!
Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?
Пожалуйста, свяжитесь с нами, если у вас есть вопросы.





