Масштабирование данных

Инструмент Масштабирование TableTorch масштабирует данные в соответствии с указанными параметрами и вставляет отдельный лист с результатами. Он поддерживает несколько методов масштабирования числовых данных, которые могут помочь достичь лучших результатов с линейными регрессиями, а также с другими инструментами статистического анализа.

Мы будем использовать набор данных об автомобилях в качестве примера и рассмотрим различные параметры масштабирования в следующих разделах.

Запуск TableTorch

  1. Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
  2. Нажмите на иконку  TableTorch на правой боковой панели Google Таблиц.

Иконка TableTorch на правой боковой панели Google Таблиц

Обзор

Выберите весь диапазон листа и нажмите пункт меню Масштабирование в TableTorch.

Пункт меню масштабирования в TableTorch

Появится следующее меню:

Конфигурация масштабирования, TableTorch

Первый раздел позволяет выбрать алгоритмы масштабирования для применения:

  • Стандартное масштабирование: вычитает среднее значение диапазона из значения строки и делит результат на стандартное отклонение диапазона.

    v = (v0 - mean(V)) / stdDev(V)

    Масштабированное значение можно интерпретировать как количество стандартных отклонений от среднего. Эта величина может быть и отрицательной, поскольку масштабированный диапазон оказывается центрированным вокруг нуля. Стандартное масштабирование настолько часто применяется перед регрессиями, что встроено прямо в инструмент регрессии TableTorch и включено по умолчанию. Поэтому отдельно запускать Масштабирование перед регрессией не нужно, если других методов масштабирования не требуется — достаточно соответствующего флажка в самом инструменте регрессии.

  • Процентильный ранг: заменяет значение его соответствующим процентилем в наборе. Используется дробное ранжирование, т.е. одинаковым значениям присваивается их средний ранг.

  • Квартили: вставляет три столбца Q2, Q3 и Q4 с бинарным значением (1 или 0), указывающим, лежит ли исходное значение в указанной четверти набора или нет. Q1 отсутствует, чтобы избежать высоких коэффициентов корреляции между признаками и тем самым облегчить регрессии. Если планируемый анализ данных не является регрессией и Q1 нужен, его легко добавить формулой вида:

    =IF(AND(Q2Col = 0, Q3Col = 0, Q4Col = 0), 1, 0)
    
  • Логарифмическое масштабирование / log(1 + x): применяет показанную формулу к значениям набора. Это может быть полезно для регрессий, когда заранее известно, что указанные признаки имеют логарифмическое распределение.

В следующем разделе выбирается режим работы со столбцами: применять ли все отмеченные методы к одному и тому же набору столбцов или указывать столбцы отдельно для каждого метода.

Следующие два или более раздела позволяют выбрать исходные столбцы для включения в созданный набор данных, а также столбцы, которые будут обработаны методами масштабирования.

Последний раздел инструмента, Раскрашивание, позволяет включить одну или несколько цветовых схем для применения к столбцам с масштабированными данными. Если включено более одной схемы, они будут чередоваться, чтобы было легче различать столбцы в созданном листе.

Пример с набором данных об автомобилях

Давайте масштабируем несколько столбцов и посмотрим, может ли это помочь улучшить качество регрессии для столбца selling_price из набора данных об автомобилях.

  1. Отметьте стандартное масштабирование, процентильный ранг и квартили в разделе алгоритмов.

  2. Выберите параметр Отдельно для каждого метода в режиме выбора столбцов.

  3. Выберите name и selling_price в меню исходных столбцов.

  4. Выберите следующие столбцы для стандартного масштабирования:
    • year
    • max power bhp
    • max torque min RPM
  5. Для процентильного ранга:
    • mileage_kmpl
    • engine cc
  6. Для квартилей:
    • km_driven
    • torque N·m
  7. Нажмите кнопку Масштабировать данные, чтобы создать лист с масштабированными значениями.

Масштабированный набор данных будет выглядеть следующим образом:

Пример масштабированного набора данных

Обратите внимание, что масштабированные столбцы были раскрашены в соответствии с цветовой схемой по умолчанию, что может помочь с более быстрой визуальной идентификацией паттернов в данных.

Формулы

TableTorch копирует данные в результирующий набор по значениям, т.е. формулы не копируются. Это сделано для ускорения процесса и избежания превышения квот. Предполагается, что созданный лист имеет временный характер и полезен для последующих регрессий или других манипуляций с данными, а не для экспериментов с формулами.

Заключение

Масштабирование признаков способом, который обеспечивает максимальный коэффициент корреляции с меткой, может помочь улучшить качество линейной регрессии.

Смотрите также в Википедии:

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.