Выборка данных

Функция Выборка TableTorch читает данные выбранного диапазона и вставляет новый лист, содержащий отдельные выборки исходных данных со строками, выбранными в соответствии с указанными параметрами.

Она может использоваться для следующих целей:

Разделение данных на обучающую и валидационную выборки или на несколько выборок одинакового размера, полезных для K-кратной перекрёстной проверки.
Рандомизация порядка строк.
Стратифицированная случайная выборка:
- Равномерная: разбиения должны иметь одинаковое количество строк, принадлежащих каждой страте.
- Пропорциональная: доля каждой страты должна быть такой же, как в исходном наборе данных, в каждой выборке.
Выборка с заменой: каждая строка имеет одинаковую вероятность быть включённой в результирующее разбиение, количество строк может быть больше, чем в исходном наборе данных, есть вероятность, что одна и та же строка появится более одного раза в конкретной выборке.

Приёмы выборки, доступные на панели Выборка, те же, что используются для линейной и логистической регрессий, и алгоритм под капотом — тот же. Поэтому функция Выборка удобна для того, чтобы наглядно увидеть, как именно данные будут разделены перед построением регрессии, а также для любых других исследований на сформированных выборках.

Давайте рассмотрим применение каждого из доступных параметров на наборе данных об автомобилях в следующих разделах.

Запуск TableTorch
Разделение на обучающую и валидационную выборки
Стратифицированное разделение для 3-кратной перекрёстной проверки
Выборка с заменой
Формулы

Запуск TableTorch

Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
Нажмите на иконку TableTorch на правой боковой панели Google Таблиц.

Разделение на обучающую и валидационную выборки

Выберите весь набор данных и нажмите кнопку Выборка в меню TableTorch.

Появится панель с параметрами выборки:

Нажмите кнопку Собрать, и TableTorch вставит новый лист с двумя выборками данных, каждая из которых состоит из половины строк исходного набора данных.

Строки 12..4066 скрыты на скриншоте выше, чтобы продемонстрировать, что результирующий лист содержит два отдельных набора данных с идентичной структурой столбцов, строку заголовка с идентификацией набора, а также дополнительную строку с названиями столбцов.

Выборка с заменой не использовалась, поэтому каждый из наборов содержит только уникальные записи из исходного набора данных.

Стратифицированное разделение для 3-кратной перекрёстной проверки

Попробуем разделение для 3-кратной перекрёстной проверки с year stratum (см. страницу тонкая настройка регрессий для его формулы) в качестве столбца страты и стратифицированной равномерной случайной выборкой. Полный набор параметров показан на рисунке ниже.

Нажмите кнопку Собрать для выполнения выборки.

Некоторые строки скрыты на рисунке выше, чтобы были видны строки заголовков частей и их наборов.

TableTorch создал 3 части, каждая из которых содержит обучающую выборку с двумя третями данных и валидационную выборку, в которой лежит уникальная треть исходного набора данных.

Каждая страта, определённая столбцом year stratum, равномерно представлена в каждой обучающей и валидационной выборке — то есть количество строк должно быть одинаковым. Небольшое отклонение может возникнуть, если количество строк не может быть поделено на параметр k перекрёстной проверки (т.е. 3, 5 или 10) нацело.

Выборка с заменой

Замена позволяет выполнять стратифицированную случайную выборку, не беспокоясь о недопредставленных стратах.

Представьте набор данных из 200 строк, где 40 строк принадлежат страте A и 160 — страте B. Стратифицированная равномерная случайная выборка должна создать набор данных с одинаковым количеством строк, принадлежащих каждой страте. Следовательно, с настройками по умолчанию она может создать только набор данных из 80 записей, 40 из A и 40 из B. Любой статистический анализ, проводимый на созданной выборке, потеряет 120 или 75% строк, принадлежащих страте B, что является значительной потерей сигнала и может повлиять на достоверность анализа.

Выборка с заменой предназначена для устранения этого недостатка. Она делает это путём случайного выбора строки из исходного набора заранее определённое количество раз. Таким образом, если используется замена, стратифицированная случайная равномерная выборка может создать набор данных с 160 или более строками для обеих страт. Однако некоторые из этих строк будут дубликатами, поэтому такой вид выборки подходит только для определённого статистического анализа, например, для линейных регрессий.

Если замена включена, TableTorch использует следующую эвристику для вычисления количества строк для выбора:

Пусть n — количество строк в исходном наборе данных, делённое на количество страт. Например, для набора данных из 240 строк и 3 страт n равно 80.
Если исходный набор данных содержит менее 1000 строк, выбирается кратное n строк, чтобы увеличить шансы попадания всех исходных строк в набор данных. Например, если n равно 80, TableTorch вероятно выберет как минимум 200 строк для каждой страты в зависимости от количества столбцов и других обстоятельств.
В противном случае выбирается n строк для каждой страты. Это может привести к пропуску некоторых строк в результирующей выборке, однако это необходимо для снижения вероятности превышения максимального времени выполнения или непреднамеренного добавления более 5 миллионов ячеек — лимита Google Таблиц.

Формулы

TableTorch копирует данные в результирующий набор по значениям, т.е. формулы не копируются. Это сделано для ускорения процесса и избежания превышения квот. Предполагается, что созданный лист имеет временный характер и полезен для последующих регрессий или других манипуляций с данными, а не для экспериментов с формулами.

Смотрите также в Википедии:

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.