Бутстрэп: определение доверительных интервалов

Функция Бутстрэп в TableTorch вычисляет доверительные интервалы с заданным уровнем доверия для следующих основных метрик каждой выбранной переменной:

  • среднее;
  • дисперсия;
  • стандартное отклонение;
  • 25-й процентиль;
  • медиана (50-й процентиль);
  • 75-й процентиль.

Также можно случайным образом выбрать конкретный столбец указанное число раз, чтобы вы могли вычислить нужную статистику вручную на отдельном листе.

В этой статье мы рассмотрим возможные применения бутстрэпа статистических метрик и узнаем, как использовать функцию бутстрэпа в TableTorch.

Содержание

Применения бутстрэпа

Метод бутстрэпа имеет множество применений как в бизнесе, так и в науке, например:

  • Оценка доверительных интервалов: построение доверительных интервалов для параметров генеральной совокупности.
  • Валидация моделей: оценка стабильности и точности прогностических моделей.
  • Оценка рисков: оценка вероятности финансовых потерь и других рисков.
  • Маркетинговые исследования: анализ данных о клиентах для прогнозирования тенденций и предпочтений.
  • Оценка эффективности: измерение производительности сотрудников и продуктивности процессов.
  • Управление запасами: прогнозирование спроса и оптимизация уровня запасов.
  • Финансовое моделирование: моделирование экономических сценариев для обоснования инвестиционных решений.
  • Сравнительные исследования: сравнение различных групп или условий в экспериментальных исследованиях.

В этой статье мы подробно рассмотрим бутстрэп. Прежде чем продолжить, убедитесь, что вы установили дополнение TableTorch для Google Таблиц, как описано в следующем разделе.

Запуск TableTorch

  1. Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
  2. Нажмите на иконку  TableTorch на правой боковой панели Google Таблиц.

Иконка TableTorch на правой боковой панели Google Таблиц

Вычисление основных метрик

Пример данных

Начнём со следующего листа:

A B
New Design: Before New Design: After
9,7 8,1
13,9 13,2
10,9 9,2
12,4 9,6
11,5 10,6
13,8 12,1
11,6 9,7
12,5 10,3
13,6 11,8
12,5 11,8
12,7 11,3
12,3 10,9
13,6 12,3
11,4 9,7
14,6 12,7
12,1 9,9
8,9 8,1
12,5 10,4
11,8 11,4
12,4 10,7
15,0 13,8
12,0 10,9
11,9 10,7
12,4 10,5
8,3 6,8
11,5 10,0
13,0 10,9
12,5 10,8
10,4 8,9
13,9 12,2
11,6 11,0
7,7 6,4
9,8 8,4
15,5 14,5
11,2 9,1
13,2 11,5
11,3 10,0
10,4 8,5
13,1 12,6
13,8 12,1
10,4 8,5
13,5 11,8
13,5 12,3
13,7 11,6
13,2 11,3
11,8 10,9
13,1 11,7
12,5 11,8
13,7 11,9
12,5 11,6

Этот лист также упоминается на странице проверка гипотез. Он описывает время в секундах, которое потребовалось участникам эксперимента для выполнения указанного действия до и после изменения дизайна UI.

Вычисление

  1. ➡️ Выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Бутстрэп.

    Пункт меню бутстрэпа в TableTorch

  2. ➡️ При необходимости скорректируйте параметры и нажмите кнопку Вычислить.
    • уровень доверия — 95% по умолчанию, указывает вероятность того, что доверительный интервал содержит истинный параметр. Вообще говоря, чем выше уровень доверия, тем шире вычисленный доверительный интервал.
    • параметры для вычисления — по умолчанию вычисляются среднее, 25-й, 50-й и 75-й процентили, но вы также можете включить дисперсию и стандартное отклонение.
    • формат вывода — определяет формат результирующего листа. Выберем среднее ± половина диапазона, отдельно для простоты. Таким образом каждая метрика будет представлена средним значением в одном столбце и половиной диапазона (погрешностью) в другом столбце.
    • количество повторных выборок — задаёт, сколько повторных выборок набора данных TableTorch выполнит при бутстрэпе для вычисления запрошенных основных метрик.

    Параметры бутстрэпа: уровень доверия, параметры, формат вывода, количество повторных выборок

  3. Результаты будут представлены на новом листе.

    TableTorch: результаты бутстрэпа — 95% доверительные интервалы для среднего и процентилей

Анализ полученных метрик

Если мы транспонируем результаты и представим их как три столбца для минимумов, средних и максимумов доверительных интервалов, они могут быть показаны в следующей таблице:

A B C
Среднее New Design: Before New Design: After
Минимум 11,78 10,3
Среднее 12,19 10,77
Максимум 12,66 11,2
     
25-й процентиль New Design: Before New Design: After
Минимум 10,54 8,95
Среднее 11,22 9,83
Максимум 11,98 10,61
     
Медиана New Design: Before New Design: After
Минимум 11,88 10,49
Среднее 12,34 10,96
Максимум 12,68 11,47
     
75-й процентиль New Design: Before New Design: After
Минимум 12,54 11,44
Среднее 13,18 11,78
Максимум 13,68 12,22

Гипотеза эксперимента состояла в том, что новый дизайн сократит время выполнения оператором определённого действия. Посмотрим, подтверждают ли полученные метрики это:

  1. Среднее время уменьшилось на 1,42 секунды (12,19 - 10,77).
  2. 95% доверительный интервал для среднего времени после вмешательства заканчивается на 11,2, что ниже, чем начало 11,78 доверительного интервала для среднего времени до вмешательства. Это предполагает, что с 95% уверенностью изменение среднего времени не случайно и показывает эффект как минимум -0,58 секунды.
  3. Медиана и 75-й процентиль также показывают значимые уменьшения:
    • Медиана уменьшилась как минимум на 0,41 секунды.
    • 75-й процентиль уменьшился на 0,32 секунды.
  4. Для 25-го процентиля, хотя доверительный интервал после вмешательства ниже, чем до, они немного перекрываются, указывая, что эффект может быть не статистически значимым для самых быстрых 25% операторов.

* — Узнайте больше об этом эксперименте на странице о проверке гипотез.

Повторная выборка одного столбца N раз

TableTorch может быть очень полезен при вычислении нескольких весьма распространённых метрик, как описано в предыдущих разделах этой статьи.

Однако он также может помочь вам провести бутстрэп любой метрики, если её можно вычислить простой формулой Google Таблиц.

Следующая часть этой статьи расскажет, как это сделать.

Бутстрэп произвольной метрики

Для демонстрации давайте проведём бутстрэп разницы между наименьшим и наибольшим временем, то есть размаха времени, из набора данных, представленного выше.

Шаг 1: повторная выборка исходного столбца

  1. ➡️ Выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Бутстрэп.

    Пункт меню бутстрэпа в TableTorch

  2. ➡️ При необходимости скорректируйте параметры и нажмите кнопку Сформировать выборки.
    • Выберите столбец для повторной выборки: New Design: Before в этом примере.
    • Выберите количество повторных выборок: 599 в этом примере.

      ПРИМЕЧАНИЕ: в зависимости от размера исходного набора данных может быть невозможно сделать столько повторных выборок из-за ограничения Google Таблиц на количество ячеек с данными на одной таблице.

    Бутстрэп: параметры повторной выборки одного столбца

  3. Вскоре будет представлен лист с 599 повторными выборками исходного столбца.

    TableTorch: результаты бутстрэпа — 599 повторных выборок исходного столбца

Шаг 2: вычисление нужной метрики для всех повторных выборок

  1. Поместим формулу для вычисления размаха под первым столбцом повторной выборки:

     =MAX(A4:A52) - MIN(A4:A52)
    

    Ввод формулы для произвольной метрики в Google Таблицах

  2. Затем просто скопируйте эту формулу горизонтально для всех созданных столбцов:

    Скопированная произвольная метрика

Шаг 3: вычисление доверительного интервала

Теперь введите формулы в строки 56-60 для вычисления 95% доверительного интервала:

  • Начало 95% доверительного интервала::
    =PERCENTILE(A54:WA54, 0.025)
    
  • Конец 95% доверительного интервала::
    =PERCENTILE(A54:WA54, 0.975)
    
  • Среднее::
    =AVERAGE(B56:B57)
    
  • Погрешность:
    =(B57-B56)/2
    
  • 95% Доверительный интервал:
    =CONCATENATE(TEXT(B58, "0.00"), " ± ", TEXT(B59, "0.00"))
    

Доверительный интервал для произвольной метрики

Таким образом можно провести бутстрэп любой метрики, вычисляемой формулой Google Таблиц. Если вы хотите вычислить 99% доверительный интервал вместо 95%, используйте процентили 0,005 и 0,995 в формулах для доверительного интервала выше соответственно.

Заключение

Функция бутстрэпа дополнения TableTorch для Google Таблиц предлагает надёжный и удобный инструмент для создания точных доверительных интервалов без опоры на традиционные предположения о распределении. В этой статье мы продемонстрировали, как провести бутстрэп распространённых метрик, таких как средние, медианы, 25-й и 75-й процентили, а также любой произвольной метрики, которую можно вычислить с помощью формул Google Таблиц.

Благодаря тесной интеграции TableTorch с Google Таблицами и начинающие, и опытные аналитики могут пользоваться методами повторной выборки для построения надёжных доверительных интервалов.

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.