Масштабирование данных

Инструмент Масштабирование TableTorch масштабирует данные в соответствии с указанными параметрами и вставляет отдельный лист с результатами. Он поддерживает несколько методов масштабирования числовых данных, которые могут помочь достичь лучших результатов с линейными регрессиями, а также с другими инструментами статистического анализа.

Мы будем использовать набор данных об автомобилях в качестве примера и рассмотрим различные параметры масштабирования в следующих разделах.

Запуск TableTorch
Обзор
Пример с набором данных об автомобилях
Формулы
Заключение

Запуск TableTorch

Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
Нажмите на иконку TableTorch на правой боковой панели Google Таблиц.

Обзор

Выберите весь диапазон листа и нажмите пункт меню Масштабирование в TableTorch.

Появится следующее меню:

Первый раздел позволяет выбрать алгоритмы масштабирования для применения:

Стандартное масштабирование: вычитает среднее значение диапазона из значения строки и делит результат на стандартное отклонение диапазона.

v = (v0 - mean(V)) / stdDev(V)

Масштабированное значение можно интерпретировать как количество стандартных отклонений от среднего. Эта величина может быть и отрицательной, поскольку масштабированный диапазон оказывается центрированным вокруг нуля. Стандартное масштабирование настолько часто применяется перед регрессиями, что встроено прямо в инструмент регрессии TableTorch и включено по умолчанию. Поэтому отдельно запускать Масштабирование перед регрессией не нужно, если других методов масштабирования не требуется — достаточно соответствующего флажка в самом инструменте регрессии.
Процентильный ранг: заменяет значение его соответствующим процентилем в наборе. Используется дробное ранжирование, т.е. одинаковым значениям присваивается их средний ранг.
Квартили: вставляет три столбца Q2, Q3 и Q4 с бинарным значением (1 или 0), указывающим, лежит ли исходное значение в указанной четверти набора или нет. Q1 отсутствует, чтобы избежать высоких коэффициентов корреляции между признаками и тем самым облегчить регрессии. Если планируемый анализ данных не является регрессией и Q1 нужен, его легко добавить формулой вида:
```
=IF(AND(Q2Col = 0, Q3Col = 0, Q4Col = 0), 1, 0)
```
Логарифмическое масштабирование / log(1 + x): применяет показанную формулу к значениям набора. Это может быть полезно для регрессий, когда заранее известно, что указанные признаки имеют логарифмическое распределение.

В следующем разделе выбирается режим работы со столбцами: применять ли все отмеченные методы к одному и тому же набору столбцов или указывать столбцы отдельно для каждого метода.

Следующие два или более раздела позволяют выбрать исходные столбцы для включения в созданный набор данных, а также столбцы, которые будут обработаны методами масштабирования.

Последний раздел инструмента, Раскрашивание, позволяет включить одну или несколько цветовых схем для применения к столбцам с масштабированными данными. Если включено более одной схемы, они будут чередоваться, чтобы было легче различать столбцы в созданном листе.

Пример с набором данных об автомобилях

Давайте масштабируем несколько столбцов и посмотрим, может ли это помочь улучшить качество регрессии для столбца selling_price из набора данных об автомобилях.

Отметьте стандартное масштабирование, процентильный ранг и квартили в разделе алгоритмов.
Выберите параметр Отдельно для каждого метода в режиме выбора столбцов.
Выберите name и selling_price в меню исходных столбцов.
Выберите следующие столбцы для стандартного масштабирования:
- year
- max power bhp
- max torque min RPM
Для процентильного ранга:
- mileage_kmpl
- engine cc
Для квартилей:
- km_driven
- torque N·m
Нажмите кнопку Масштабировать данные, чтобы создать лист с масштабированными значениями.

Масштабированный набор данных будет выглядеть следующим образом:

Обратите внимание, что масштабированные столбцы были раскрашены в соответствии с цветовой схемой по умолчанию, что может помочь с более быстрой визуальной идентификацией паттернов в данных.

Формулы

TableTorch копирует данные в результирующий набор по значениям, т.е. формулы не копируются. Это сделано для ускорения процесса и избежания превышения квот. Предполагается, что созданный лист имеет временный характер и полезен для последующих регрессий или других манипуляций с данными, а не для экспериментов с формулами.

Заключение

Масштабирование признаков способом, который обеспечивает максимальный коэффициент корреляции с меткой, может помочь улучшить качество линейной регрессии.

Смотрите также в Википедии:

Масштабирование признаков (на английском)
Конструирование признаков
Z-оценка
Процентильный ранг (на английском)
Логарифмическая шкала

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.