Случайный лес: регрессия

Регрессия случайного леса строит модель, использующую ансамбль деревьев решений для оценки непрерывной переменной.

Видео ниже показывает, как использовать TableTorch для применения алгоритма регрессии случайного леса для построения модели цены подержанного автомобиля прямо в Google Таблицах.

Смотреть на YouTube: Регрессия случайного леса в Google Таблицах с TableTorch 5:56

TableTorch поддерживает множество параметров для моделей случайного леса:

количество деревьев решений;
максимальная глубина одного дерева;
ограничение максимального количества признаков на дерево;
выбор признаков с заменой (т.е. использование одного и того же признака несколько раз в одном дереве).

Для задач регрессии TableTorch поддерживает:

Вставку столбца прогнозов.
Добавление сводного листа обучения, содержащего:
- параметры обучения;
- общие метрики качества модели:
  - корень из среднеквадратической ошибки;
  - средняя абсолютная ошибка;
  - средняя абсолютная процентная ошибка;
  - медианная абсолютная ошибка;
  - медианная абсолютная процентная ошибка;
  - R²;
  - необъяснимая доля дисперсии;
- обзор первых 50 деревьев с описанием условий if-else внутри деревьев.

Столбцы прогнозов содержат формулы, готовые к использованию для новых данных.

Запуск TableTorch
Параметры случайного леса

Запуск TableTorch

Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
Нажмите на иконку TableTorch на правой боковой панели Google Таблиц.

Параметры случайного леса

Случайный лес — это ансамблевая модель, которая обучает множество деревьев решений. Каждое дерево обучается на ограниченном количестве признаков. Изменение параметров обучения может помочь создать более точную и устойчивую модель.

Количество деревьев решений

До определённого предела, чем больше это число, тем меньше дисперсия прогнозов, т.е. они становятся более стабильными, и модель с меньшей вероятностью переобучится.

Максимальная глубина одного дерева

Чем больше это число, тем глубже могут быть деревья случайного леса. Это может улучшить точность модели, однако также может привести к переобучению, особенно если обучающая выборка не очень большая.

Максимальное количество признаков на дерево

Определяет, сколько признаков из исходного набора данных каждое дерево может использовать для обучения. Увеличение этого числа, вероятно, даст более точную модель, но также может привести к большей дисперсии и повышенному риску переобучения, особенно при недостатке данных.

Выбор признаков с заменой

Включение этого параметра позволяет признакам появляться более одного раза в выборках данных, используемых для обучения отдельных деревьев. Это может уменьшить дисперсию прогнозов.

Смотрите также:

Статья о случайном лесе в Википедии

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.