Линейная регрессия

Линейная регрессия строит модель, предсказывающую одну зависимую переменную (метку) путём умножения одной или нескольких независимых переменных (признаков) на соответствующие коэффициенты.

Смотреть на YouTube: Выполнение линейной регрессии в Google Таблицах с TableTorch 7:16

TableTorch предоставляет богатый набор функций для регрессий:

  • методы обычных и взвешенных наименьших квадратов для оценки коэффициентов;
  • разделение на обучающую и валидационную выборки;
  • K-кратная перекрёстная проверка;
  • стратифицированная выборка;
  • выборка с заменой.

После построения модели TableTorch может вставить столбец прогнозов с формулой для оценки метки, а также создать сводный лист регрессии. Формулу затем можно использовать на любых других данных с такими же признаками (столбцами) для оценки метки.

В следующих разделах мы построим простейшую регрессию для прогнозирования столбца selling_price из набора данных об автомобилях. Для получения дополнительной информации о различных параметрах обучения и выборки см. страницу тонкая настройка регрессий.

Запуск TableTorch

  1. Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
  2. Нажмите на иконку  TableTorch на правой боковой панели Google Таблиц.

Иконка TableTorch на правой боковой панели Google Таблиц

Обучение с настройками по умолчанию

Выберите весь диапазон листа и нажмите пункт меню Линейная регрессия в TableTorch.

Пункт меню линейной регрессии в TableTorch

Нечисловые столбцы будут автоматически отфильтрованы.

Меню линейной регрессии, TableTorch

По умолчанию в качестве метки выбран последний столбец more than 5 seats. Поскольку наша цель — предсказать значение другого столбца, измените метку на selling_price следующим образом:

Выбор метки для линейной регрессии, TableTorch

Не имеет значения, отмечен ли selling_price в списке признаков или нет, потому что он выбран в качестве метки — TableTorch автоматически исключит selling_price из списка признаков.

Нажмите кнопку Обучить модель.

Кнопка «Обучить модель»

Появится следующая панель результатов:

Панель сводки модели

Панель показывает выбранный диапазон, основные параметры обучения и, что наиболее важно, ключевые метрики сводки обучения:

  • Корень из среднеквадратической ошибки (RMSE) и средняя абсолютная ошибка (MAE): наиболее часто используемые метрики для измерения среднего отклонения между прогнозами и наблюдаемыми значениями.
  • (R-квадрат), также известный как коэффициент детерминации, — доля вариации зависимой переменной, которую регрессии удалось объяснить через независимые переменные.
  • Необъяснимая доля дисперсии равна 1 - R² — это доля вариации, которую регрессии не удалось объяснить через независимые переменные.

Рассмотрим созданную сводку подробнее.

Пример сводки обучения

Обратите внимание, что повторная регрессия на том же диапазоне может дать разные результаты из-за перемешивания данных, которое TableTorch выполняет до и между итерациями для повышения устойчивости построенной модели.

MAE превышает 260 000, что составляет около 41% от средней цены продажи 638 272 или более половины медианной цены 450 000. В зависимости от наших целей это может быть или не быть приемлемым уровнем, поскольку пока неизвестно, какие именно строки поднимают уровень MAE так высоко — возможно, это всего лишь несколько дорогих автомобилей класса люкс.

оказался около 0,73, что, опять же, может быть приемлемым в зависимости от обстоятельств. Однако это определённо неплохо для первой попытки, поскольку мы не исключали никаких столбцов на основе анализа корреляционной матрицы, не исключали выбросы и ещё не настраивали параметры обучения и выборки.

Чем лучше регрессия, тем ниже должны быть RMSE и MAE и тем выше . Однако эти метрики отражают разные аспекты регрессии и должны учитываться вместе при принятии решения о пригодности модели.

Эти и другие возможности рассмотрены в статье тонкая настройка регрессий.

А пока рассмотрим, как использовать построенную модель, прежде чем углубляться в тонкую настройку.

Вставка столбца прогнозов

В нижней части панели результатов регрессии есть раздел Формула с кнопкой Вставить столбец прогноза.

Кнопка вставки столбца прогноза, TableTorch

Нажмите её, чтобы вставить столбец после анализируемого диапазона с формулой, оценивающей значение столбца selling_price.

Пример столбца прогнозов

Для первой строки формула будет выглядеть следующим образом:

=639827.171051266 + ((B2 - 0.301181102362204) / 0.458799459127852) * -13624.7005345943 + ((C2 - 0.174089566929133) / 0.379209812049647) * -78332.2214570537 + ((D2 - 0.0962106299212598) / 0.294898023096581) * -40904.9165485197 + ((E2 - 0.0949803149606299) / 0.293205783883989) * -54328.4653464246 + ...

Поскольку стандартное масштабирование включено по умолчанию, TableTorch обучил модель на масштабированных данных, поэтому формула прогноза также содержит инструкции масштабирования и имеет следующий формат:

=свободныйЧлен +
  ((Столбец1 - СреднееСтолбца1) / СтдОтклСтолбца1) * КоэффСтолбца1 +
  ((Столбец2 - СреднееСтолбца2) / СтдОтклСтолбца2) * КоэффСтолбца2 +
  ... +
  ((СтолбецN - СреднееСтолбцаN) / СтдОтклСтолбцаN) * КоэффСтолбцаN

Теперь можно проводить различные виды анализа на столбце прогнозов, например, оценивать ошибки для конкретных страт, чтобы лучше понять сильные и слабые стороны модели или разработать изменения в данных или параметрах обучения для получения лучшей модели.

Кроме того, если качество модели признано приемлемым, её легко применить к новым данным, просто скопировав и вставив формулу в другой диапазон с идентичной структурой столбцов. Например, если у нас есть данные о новых автомобилях без определённой цены продажи, мы можем использовать модель для оценки цены.

Добавление сводного листа

Другая полезная функция панели результатов регрессии — кнопка Создать лист сводки в разделе «Сводка».

Кнопка добавления сводного листа

Нажатие на неё вставит новый лист с более подробной сводкой регрессии.

Сводный лист линейной регрессии

Помимо метрик, таких как R² и RMSE, которые также присутствуют на панели результатов регрессии, сводный лист показывает:

  • Свободный член (смещение) модели. Это значение, которое не удалось объяснить только с помощью независимых переменных.
  • Коэффициент каждого признака и, если было включено стандартное масштабирование, их соответствующие средние значения и стандартные отклонения. Коэффициенты выделены так, чтобы помочь быстро определить наиболее значимые.

Заключение

TableTorch создаёт работоспособную модель даже с настройками по умолчанию. При этом доступно множество настроек, которые помогают улучшить качество регрессии — обзор см. на странице тонкая настройка регрессий.

Смотрите также:

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.