Проверка гипотез: уверенные выводы

Проверка гипотез определяет, поддерживают ли данные конкретную гипотезу. TableTorch поддерживает следующие тесты:

Дисперсионный анализ (ANOVA) F-тест сравнивает дисперсии между группами для выявления значимых различий.
T-тест Стьюдента оценивает, значимо ли различаются средние значения двух групп, помогая принимать решения на основе статистических данных.

В этой статье мы рассмотрим возможные применения проверки гипотез и выполним анализ данных UI-эксперимента с помощью функции проверки гипотез в TableTorch.

Ключевые возможности:
Примеры применения проверки гипотез
Вычисление статистических тестов для данных UI-эксперимента: краткое руководство

Ключевые возможности:

Несколько групп: выберите столбцы данных для анализа, один из которых будет контрольной группой.
Статистические тесты:
- Односторонний ANOVA F-тест: сравнивает дисперсии между несколькими группами для определения наличия существенных различий.
- Одновыборочный t-тест: проверяет, отличается ли среднее выборки от известного среднего генеральной совокупности (μ0). Идеален для проверки гипотез относительно конкретного эталона.
- Зависимый (парный) t-тест: сравнивает средние значения двух связанных групп. Идеален для исследований «до и после».
- Независимый двухвыборочный t-тест: оценивает, значимо ли различаются средние значения двух независимых групп. Полезен для сравнения двух различных групп.
Настройка μ0 (среднее генеральной совокупности): легко установите μ0 равным среднему выбранных групп или среднему контрольной группы.
Интерфейс — это сама таблица: результаты вычислений представлены на новом листе, содержащем:
- статистики тестов и p-значения для выбранных тестов.
- основные метрики (среднее, медиана, 25-й и 75-й процентили, стандартное отклонение), отображаемые в таблице и на диаграмме.

Примеры применения проверки гипотез

Эффективность маркетинга: определение влияния маркетинговых кампаний путём сравнения коэффициентов конверсии.
Изменения процессов: оценка влияния изменений в процессах на производительность.
Удовлетворённость клиентов: оценка уровня удовлетворённости до и после изменений в обслуживании.
Контроль качества: выявление значимых различий в дефектах продукции между различными производственными партиями.
Решения на основе данных, A/B-тестирование: помогает бизнесу проверять предположения и повышать операционную эффективность.
Академические исследования: проверка гипотез и подтверждение теорий в социальных, естественных и гуманитарных науках.
Оценка образования: сравнение успеваемости студентов до и после внедрения новых методов обучения или учебных программ.

Вычисление статистических тестов для данных UI-эксперимента: краткое руководство

Чтобы лучше понять функцию Проверка гипотез в TableTorch, давайте рассмотрим детально проработанный пример эксперимента.

Описание эксперимента

Крупное предприятие стремится упростить UI своей ERP-системы, чтобы сотрудники быстрее находили товарные запасы. Перед полным внедрением был проведён эксперимент с тремя группами сотрудников:

Контрольная: без изменений UI; служит базовой линией.
Отвлечение: незначительные визуальные изменения для проверки, не обусловлен ли эффект новизной.
Новый дизайн: значительные изменения UI для сокращения итераций поиска.

Эксперимент определит, улучшает ли новый дизайн эффективность и оправданы ли дальнейшие инвестиции.

Метод эксперимента

Экспериментатор должен выполнить следующие шаги:

Набрать 150 сотрудников для эксперимента, убедившись, что каждый дал согласие на участие. Случайным образом распределить их на три равные группы.
Наблюдать и записывать среднее время поиска товарных запасов с использованием текущего UI в течение одного дня. Извлечь данные из ERP-системы.
Выполнить ANOVA F-тест, чтобы проверить, объясняется ли разброс времени поиска между группами случайной вариацией.
- Если p-значение больше 0,05, считать разброс случайным.
- Если нет, перераспределить участников и пересчитать, пока p-значение не станет высоким.
Внедрить изменения UI и записать среднее время поиска как в шаге 2.
Провести независимый t-тест Стьюдента между группами Контрольная, Отвлечение и Новый дизайн.
- Проверить, что среднее Нового дизайна как минимум на 5% ниже среднего Контрольной.
- Если изменение времени в группе Новый дизайн отрицательное и статистически значимое, а в группе Отвлечение это не так, считать гипотезу подтверждённой.
- В противном случае прекратить эксперимент и принять нулевую гипотезу.
Выполнить зависимый t-тест Стьюдента для группы Новый дизайн до и после изменения.
- Проверить, что среднее время поиска как минимум на 5% ниже.
- Если p-значение выше 0,05, отменить эксперимент и принять нулевую гипотезу.
В случае успеха представить анализ руководству, показав, что данные подтверждают повышение производительности.

Прежде чем обсуждать набор данных и статистические тесты, убедитесь, что вы установили дополнение TableTorch. Инструкции см. ниже.

Запуск TableTorch

Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
Нажмите на иконку TableTorch на правой боковой панели Google Таблиц.

Шаги 1-3: До изменения

Шаг 1: набор 150 сотрудников для эксперимента

Было набрано 150 сотрудников, каждый из которых дал письменное согласие на участие в эксперименте.

Шаг 2: сбор листа с данными до изменения дизайна

Этот лист показывает среднее время (в секундах), которое потребовалось сотрудникам для поиска товарной позиции в первый день эксперимента, до каких-либо изменений UI. Каждый столбец представляет отдельную группу эксперимента.

A	B	C
Control	Distraction	New Design
9,7	13,4	9,7
10,0	9,3	13,9
11,1	11,5	10,9
10,7	13,3	12,4
14,1	12,3	11,5
10,8	11,0	13,8
10,8	14,1	11,6
12,3	12,0	12,5
9,5	11,7	13,6
12,4	13,2	12,5
14,4	15,7	12,7
13,0	11,0	12,3
13,3	12,5	13,6
12,8	12,7	11,4
10,8	14,1	14,6
13,9	11,1	12,1
10,9	12,1	8,9
9,1	11,1	12,5
12,1	11,9	11,8
13,4	11,9	12,4
12,4	12,2	15,0
9,3	12,1	12,0
11,0	11,7	11,9
12,5	12,0	12,4
12,9	11,7	8,3
12,4	10,3	11,5
12,3	13,7	13,0
12,2	11,5	12,5
13,4	10,5	10,4
14,9	10,4	13,9
11,3	12,1	11,6
10,4	11,9	7,7
11,4	13,4	9,8
12,4	12,7	15,5
14,5	14,7	11,2
10,4	13,3	13,2
11,5	9,4	11,3
10,3	13,4	10,4
12,5	11,2	13,1
10,8	10,6	13,8
10,3	9,6	10,4
11,5	10,8	13,5
12,6	14,3	13,5
13,1	9,5	13,7
14,2	12,4	13,2
9,3	10,3	11,8
11,1	13,7	13,1
10,8	11,8	12,5
12,7	14,1	13,7
12,0	12,6	12,5

Шаг 3: отнесение разброса к случайности

Среднее время (в секундах) среди всех групп составляет 12,04, но есть небольшая разница между группами:

Контрольная: 11,8 секунды
Отвлечение: 12,1 секунды
Новый дизайн: 12,2 секунды

Чтобы обеспечить справедливое распределение по группам и избежать систематической ошибки, мы выполняем ANOVA F-тест, одновыборочный t-тест Стьюдента и исследуем соответствующие p-значения. Если p-значение ниже 0,05, различия, вероятно, значимы и не объясняются случайностью.

➡️ Выберите первую ячейку таблицы данных на листе, откройте TableTorch и нажмите пункт Проверка гипотез в главном меню.

➡️ Отметьте Односторонний ANOVA F-тест и T-тест: одновыборочный, введите 12,04 для μ0 и нажмите Вычислить тесты.

ПРИМЕЧАНИЕ: Контрольная группа не имеет значения в этом вычислении, поскольку ни один из двухвыборочных t-тестов не был выбран.

➡️ Изучите вставленный лист с результатами:

Вот что мы видим на листе:

Основные метрики, отображаемые как в таблице, так и на соответствующей диаграмме, показывают незначительную разницу между группами.
Связанное с F-тестом p-значение на уровне 0,43 явно указывает, что различия в дисперсии между группами не являются статистически значимыми.
Одновыборочные t-тесты для всех групп показывают связанные двусторонние p-значения значительно выше 0,05, подтверждая, что различия в средних значениях между группами также не являются статистически значимыми.

К счастью, и ANOVA F-тест, и одновыборочные t-тесты не показали никаких статистически значимых различий между группами. Это помогает нам убедиться, что мы можем продолжить эксперимент по плану и не беспокоиться о неравномерном или предвзятом распределении участников по группам.

Шаги 4-6: После изменения

Шаг 4: внедрение изменения и сбор новых данных

После того как изменения дизайна были применены к группам Отвлечение и Новый дизайн, были собраны новые данные. В таблицу были добавлены три новых листа:

After Change: три столбца, содержащие данные групп так же, как лист из шага 2.
Before/After: Distraction: лист с двумя столбцами; первый представляет участников группы Отвлечение до изменений UI, а второй — тех же участников после внедрения изменений UI.
Before/After: New Design: лист с двумя столбцами об участниках группы Новый дизайн эксперимента.

Шаг 4.1: Лист After Change

Этот лист собран так же, как исходный набор данных, но после внедрения изменений дизайна.

A	B	C
Control	Distraction	New Design
10,3	13,0	8,1
9,2	7,1	13,2
11,1	7,7	9,2
10,6	14,1	9,6
12,9	11,7	10,6
10,7	10,4	12,1
10,4	12,4	9,7
11,8	11,4	10,3
10,2	11,0	11,8
11,7	13,7	11,8
15,0	15,8	11,3
12,6	10,0	10,9
12,4	14,5	12,3
12,3	11,3	9,7
11,4	15,1	12,7
13,8	12,0	9,9
10,5	13,5	8,1
9,7	9,2	10,4
11,8	12,5	11,4
13,5	12,6	10,7
12,4	13,7	13,8
9,3	11,7	10,9
10,4	10,7	10,7
13,0	12,1	10,5
13,4	12,8	6,8
11,8	10,9	10,0
13,1	15,1	10,9
12,2	11,2	10,8
13,9	9,0	8,9
15,4	9,8	12,2
10,1	11,4	11,0
10,8	10,6	6,4
12,6	14,9	8,4
12,6	14,0	14,5
13,3	13,0	9,1
10,2	11,8	11,5
10,9	7,7	10,0
9,7	13,8	8,5
12,1	11,0	12,6
10,9	10,2	12,1
10,2	8,6	8,5
11,1	9,3	11,8
11,9	14,9	12,3
12,8	11,6	11,6
14,2	12,5	11,3
8,9	10,0	10,9
10,6	14,3	11,7
10,6	11,4	11,8
12,7	14,2	11,9
11,4	9,7	11,6

Шаг 4.2: Лист Before/After: Distraction

В этом листе каждая строка представляет среднее время (в секундах), которое потребовалось конкретному участнику группы Отвлечение для поиска товарной позиции до и после внедрения изменений UI.

A	B
Distraction: Before	Distraction: After
13,4	13,0
9,3	7,1
11,5	7,7
13,3	14,1
12,3	11,7
11,0	10,4
14,1	12,4
12,0	11,4
11,7	11,0
13,2	13,7
15,7	15,8
11,0	10,0
12,5	14,5
12,7	11,3
14,1	15,1
11,1	12,0
12,1	13,5
11,1	9,2
11,9	12,5
11,9	12,6
12,2	13,7
12,1	11,7
11,7	10,7
12,0	12,1
11,7	12,8
10,3	10,9
13,7	15,1
11,5	11,2
10,5	9,0
10,4	9,8
12,1	11,4
11,9	10,6
13,4	14,9
12,7	14,0
14,7	13,0
13,3	11,8
9,4	7,7
13,4	13,8
11,2	11,0
10,6	10,2
9,6	8,6
10,8	9,3
14,3	14,9
9,5	11,6
12,4	12,5
10,3	10,0
13,7	14,3
11,8	11,4
14,1	14,2
12,6	9,7

Шаг 4.3: Лист Before/After: New Design

Каждая строка представляет среднее время (в секундах) для конкретного участника группы Новый дизайн до и после редизайна.

A	B
New Design: Before	New Design: After
9,7	8,1
13,9	13,2
10,9	9,2
12,4	9,6
11,5	10,6
13,8	12,1
11,6	9,7
12,5	10,3
13,6	11,8
12,5	11,8
12,7	11,3
12,3	10,9
13,6	12,3
11,4	9,7
14,6	12,7
12,1	9,9
8,9	8,1
12,5	10,4
11,8	11,4
12,4	10,7
15,0	13,8
12,0	10,9
11,9	10,7
12,4	10,5
8,3	6,8
11,5	10,0
13,0	10,9
12,5	10,8
10,4	8,9
13,9	12,2
11,6	11,0
7,7	6,4
9,8	8,4
15,5	14,5
11,2	9,1
13,2	11,5
11,3	10,0
10,4	8,5
13,1	12,6
13,8	12,1
10,4	8,5
13,5	11,8
13,5	12,3
13,7	11,6
13,2	11,3
11,8	10,9
13,1	11,7
12,5	11,8
13,7	11,9
12,5	11,6

Шаг 5: независимый t-тест Стьюдента

➡️ Откройте лист After Change, выберите первую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
Выберите столбец Control в выпадающем списке Контрольная группа (скорее всего, он там уже по умолчанию).
Выберите тесты для вычисления:
- Односторонний ANOVA F-тест
- T-тест: одновыборочный
- T-тест: независимые две выборки
Введите 12,04 для μ0 (среднее популяции).
Нажмите Вычислить тесты.

Конфигурация:

Результирующий лист:

Резюме:

Диаграмма основных метрик явно показывает, что участники группы Новый дизайн находили необходимые товарные позиции немного быстрее (среднее время на 0,9 секунды или примерно на 8% ниже, чем у группы Контрольная), независимо от того, сравниваем ли мы среднее, медиану, 25-й или 75-й процентиль.
Связанное с F-тестом p-значение на уровне 0,005 указывает, что разница в дисперсии между группами с высокой вероятностью не объясняется только случайностью.
Одновыборочные t-тесты:
- показывают связанные двусторонние p-значения выше 0,05 как для группы Контрольная, так и для Отвлечение — это означает, что отклонение этих групп от среднего генеральной совокупности, полученного по исходным данным, не является статистически значимым.
- отображают одностороннее p-значение для группы Новый дизайн значительно ниже 0,05, подтверждая, что разница статистически значима.
Независимые двухвыборочные t-тесты:
- разница в среднем для группы Отвлечение не является статистически значимой.
- изменение требуемого времени для группы Новый дизайн статистически значимо.

Этих результатов уже достаточно, чтобы представить их руководству и обосновать расширение охвата нового дизайна инвентаря и в конечном счёте включить его для всех пользователей ERP.

Однако для полноты этой статьи давайте также вычислим зависимые двухвыборочные t-тесты.

Шаг 6: зависимые (парные) t-тесты Стьюдента

В предыдущем разделе мы использовали независимые t-тесты Стьюдента для сравнения групп Отвлечение и Новый дизайн с группой Контрольная. В этом контексте отдельные строки менее значимы, поскольку каждая ячейка представляет время разных участников.

Однако, используя данные из листов Before/After: Distraction и Before/After: New Design, где каждая строка представляет одного участника, а столбцы показывают время до и после изменений UI соответственно, можно выполнить, вероятно, более детальные, парные (зависимые) t-тесты.

Шаг 6.1: парный t-тест для группы Отвлечение

➡️ Откройте лист Before/After: Distraction, выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
Выберите столбец Distraction: Before в выпадающем списке Контрольная группа (скорее всего, это значение по умолчанию).
Отметьте только T-тест: зависимые (парные) две выборки для вычисления.
Нажмите Вычислить тесты.

Конфигурация:

Результирующий лист:

Резюме:

Основные метрики, отображённые на диаграмме, показывают, что время немного ниже в среднем, а также для 25-го процентиля и даже медианного участника. Однако они выше для 75-го процентиля, что предполагает, что разница может объясняться расширенной дисперсией из-за новизны дизайна.
Связанное двустороннее p-значение на уровне 0,14 указывает, что разница не является статистически значимой.

Шаг 6.2: парный t-тест для группы Новый дизайн

➡️ Откройте лист Before/After: New Design, выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
Выберите столбец New Design: Before в выпадающем списке Контрольная группа (скорее всего, это значение по умолчанию).
Отметьте только T-тест: зависимые (парные) две выборки для вычисления.
Нажмите Вычислить тесты.

Конфигурация:

Результирующий лист:

Резюме:

Все основные метрики (среднее, медиана, 25-й и 75-й процентили) показывают более низкое время после редизайна.
Связанное с парным t-тестом одностороннее p-значение значительно ниже 0,05, указывая, что изменение статистически значимо.

Шаг 7: выводы

Для простого эксперимента, подобного этому, просто взглянуть на диаграммы может быть достаточно, чтобы руководство приняло правильное решение. Однако TableTorch может быстро вычислить статистические тесты, такие как ANOVA F-тест и t-тест Стьюдента, тем самым помогая докладчику улучшить свою аргументацию, обосновывая продолжение усилий по редизайну UI и показывая, что повышение производительности ощутимо и статистически значимо. Кроме того, числа часто сложнее, чем кажутся, и полагаться только на средние значения и диаграммы иногда может ввести наблюдателя в заблуждение.

Примечание относительно односторонних и двусторонних p-значений

TableTorch вычисляет как односторонние, так и двусторонние связанные p-значения для ANOVA F-теста и t-тестов Стьюдента. Важно заранее выбрать, какое из них использовать для определения статистической значимости.

Одностороннее p-значение: проверяет гипотезу о наличии значимого эффекта в одном конкретном направлении (либо увеличение, либо уменьшение). Используйте его, когда направление эффекта известно.
Двустороннее p-значение: проверяет гипотезу о наличии значимого эффекта в любом направлении (как увеличение, так и уменьшение). Используется, когда нет предварительного предположения о направлении эффекта.

Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.

Свяжитесь с нами!

Спасибо, что используете или рассматриваете TableTorch!

Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?

Пожалуйста, свяжитесь с нами, если у вас есть вопросы.