Проверка гипотез: уверенные выводы
Проверка гипотез определяет, поддерживают ли данные конкретную гипотезу. TableTorch поддерживает следующие тесты:
- Дисперсионный анализ (ANOVA) F-тест сравнивает дисперсии между группами для выявления значимых различий.
- T-тест Стьюдента оценивает, значимо ли различаются средние значения двух групп, помогая принимать решения на основе статистических данных.
В этой статье мы рассмотрим возможные применения проверки гипотез и выполним анализ данных UI-эксперимента с помощью функции проверки гипотез в TableTorch.
- Ключевые возможности:
- Примеры применения проверки гипотез
- Вычисление статистических тестов для данных UI-эксперимента: краткое руководство
Ключевые возможности:
- Несколько групп: выберите столбцы данных для анализа, один из которых будет контрольной группой.
- Статистические тесты:
- Односторонний ANOVA F-тест: сравнивает дисперсии между несколькими группами для определения наличия существенных различий.
- Одновыборочный t-тест: проверяет, отличается ли среднее выборки от известного среднего генеральной совокупности (μ0). Идеален для проверки гипотез относительно конкретного эталона.
- Зависимый (парный) t-тест: сравнивает средние значения двух связанных групп. Идеален для исследований «до и после».
- Независимый двухвыборочный t-тест: оценивает, значимо ли различаются средние значения двух независимых групп. Полезен для сравнения двух различных групп.
- Настройка μ0 (среднее генеральной совокупности): легко установите μ0 равным среднему выбранных групп или среднему контрольной группы.
- Интерфейс — это сама таблица: результаты вычислений представлены на новом листе, содержащем:
- статистики тестов и p-значения для выбранных тестов.
- основные метрики (среднее, медиана, 25-й и 75-й процентили, стандартное отклонение), отображаемые в таблице и на диаграмме.
Примеры применения проверки гипотез
- Эффективность маркетинга: определение влияния маркетинговых кампаний путём сравнения коэффициентов конверсии.
- Изменения процессов: оценка влияния изменений в процессах на производительность.
- Удовлетворённость клиентов: оценка уровня удовлетворённости до и после изменений в обслуживании.
- Контроль качества: выявление значимых различий в дефектах продукции между различными производственными партиями.
- Решения на основе данных, A/B-тестирование: помогает бизнесу проверять предположения и повышать операционную эффективность.
- Академические исследования: проверка гипотез и подтверждение теорий в социальных, естественных и гуманитарных науках.
- Оценка образования: сравнение успеваемости студентов до и после внедрения новых методов обучения или учебных программ.
Вычисление статистических тестов для данных UI-эксперимента: краткое руководство
Чтобы лучше понять функцию Проверка гипотез в TableTorch, давайте рассмотрим детально проработанный пример эксперимента.
Описание эксперимента
Крупное предприятие стремится упростить UI своей ERP-системы, чтобы сотрудники быстрее находили товарные запасы. Перед полным внедрением был проведён эксперимент с тремя группами сотрудников:
- Контрольная: без изменений UI; служит базовой линией.
- Отвлечение: незначительные визуальные изменения для проверки, не обусловлен ли эффект новизной.
- Новый дизайн: значительные изменения UI для сокращения итераций поиска.
Эксперимент определит, улучшает ли новый дизайн эффективность и оправданы ли дальнейшие инвестиции.
Метод эксперимента
Экспериментатор должен выполнить следующие шаги:
- Набрать 150 сотрудников для эксперимента, убедившись, что каждый дал согласие на участие. Случайным образом распределить их на три равные группы.
- Наблюдать и записывать среднее время поиска товарных запасов с использованием текущего UI в течение одного дня. Извлечь данные из ERP-системы.
- Выполнить ANOVA F-тест, чтобы проверить, объясняется ли разброс времени поиска между группами случайной вариацией.
- Если p-значение больше 0,05, считать разброс случайным.
- Если нет, перераспределить участников и пересчитать, пока p-значение не станет высоким.
- Внедрить изменения UI и записать среднее время поиска как в шаге 2.
- Провести независимый t-тест Стьюдента между группами Контрольная, Отвлечение и Новый дизайн.
- Проверить, что среднее Нового дизайна как минимум на 5% ниже среднего Контрольной.
- Если изменение времени в группе Новый дизайн отрицательное и статистически значимое, а в группе Отвлечение это не так, считать гипотезу подтверждённой.
- В противном случае прекратить эксперимент и принять нулевую гипотезу.
- Выполнить зависимый t-тест Стьюдента для группы Новый дизайн до и после изменения.
- Проверить, что среднее время поиска как минимум на 5% ниже.
- Если p-значение выше 0,05, отменить эксперимент и принять нулевую гипотезу.
- В случае успеха представить анализ руководству, показав, что данные подтверждают повышение производительности.
Прежде чем обсуждать набор данных и статистические тесты, убедитесь, что вы установили дополнение TableTorch. Инструкции см. ниже.
Запуск TableTorch
- Установите TableTorch для Google Таблиц через Google Workspace Marketplace. Подробнее о начальной настройке.
- Нажмите на иконку
TableTorch на правой боковой панели Google Таблиц.
Шаги 1-3: До изменения
Шаг 1: набор 150 сотрудников для эксперимента
Было набрано 150 сотрудников, каждый из которых дал письменное согласие на участие в эксперименте.
Шаг 2: сбор листа с данными до изменения дизайна
Этот лист показывает среднее время (в секундах), которое потребовалось сотрудникам для поиска товарной позиции в первый день эксперимента, до каких-либо изменений UI. Каждый столбец представляет отдельную группу эксперимента.
| A | B | C |
|---|---|---|
| Control | Distraction | New Design |
| 9,7 | 13,4 | 9,7 |
| 10,0 | 9,3 | 13,9 |
| 11,1 | 11,5 | 10,9 |
| 10,7 | 13,3 | 12,4 |
| 14,1 | 12,3 | 11,5 |
| 10,8 | 11,0 | 13,8 |
| 10,8 | 14,1 | 11,6 |
| 12,3 | 12,0 | 12,5 |
| 9,5 | 11,7 | 13,6 |
| 12,4 | 13,2 | 12,5 |
| 14,4 | 15,7 | 12,7 |
| 13,0 | 11,0 | 12,3 |
| 13,3 | 12,5 | 13,6 |
| 12,8 | 12,7 | 11,4 |
| 10,8 | 14,1 | 14,6 |
| 13,9 | 11,1 | 12,1 |
| 10,9 | 12,1 | 8,9 |
| 9,1 | 11,1 | 12,5 |
| 12,1 | 11,9 | 11,8 |
| 13,4 | 11,9 | 12,4 |
| 12,4 | 12,2 | 15,0 |
| 9,3 | 12,1 | 12,0 |
| 11,0 | 11,7 | 11,9 |
| 12,5 | 12,0 | 12,4 |
| 12,9 | 11,7 | 8,3 |
| 12,4 | 10,3 | 11,5 |
| 12,3 | 13,7 | 13,0 |
| 12,2 | 11,5 | 12,5 |
| 13,4 | 10,5 | 10,4 |
| 14,9 | 10,4 | 13,9 |
| 11,3 | 12,1 | 11,6 |
| 10,4 | 11,9 | 7,7 |
| 11,4 | 13,4 | 9,8 |
| 12,4 | 12,7 | 15,5 |
| 14,5 | 14,7 | 11,2 |
| 10,4 | 13,3 | 13,2 |
| 11,5 | 9,4 | 11,3 |
| 10,3 | 13,4 | 10,4 |
| 12,5 | 11,2 | 13,1 |
| 10,8 | 10,6 | 13,8 |
| 10,3 | 9,6 | 10,4 |
| 11,5 | 10,8 | 13,5 |
| 12,6 | 14,3 | 13,5 |
| 13,1 | 9,5 | 13,7 |
| 14,2 | 12,4 | 13,2 |
| 9,3 | 10,3 | 11,8 |
| 11,1 | 13,7 | 13,1 |
| 10,8 | 11,8 | 12,5 |
| 12,7 | 14,1 | 13,7 |
| 12,0 | 12,6 | 12,5 |
Шаг 3: отнесение разброса к случайности
Среднее время (в секундах) среди всех групп составляет 12,04, но есть небольшая разница между группами:
- Контрольная: 11,8 секунды
- Отвлечение: 12,1 секунды
- Новый дизайн: 12,2 секунды
Чтобы обеспечить справедливое распределение по группам и избежать систематической ошибки, мы выполняем ANOVA F-тест, одновыборочный t-тест Стьюдента и исследуем соответствующие p-значения. Если p-значение ниже 0,05, различия, вероятно, значимы и не объясняются случайностью.
➡️ Выберите первую ячейку таблицы данных на листе, откройте TableTorch и нажмите пункт Проверка гипотез в главном меню.
➡️ Отметьте Односторонний ANOVA F-тест и T-тест: одновыборочный, введите 12,04 для μ0 и нажмите Вычислить тесты.
ПРИМЕЧАНИЕ: Контрольная группа не имеет значения в этом вычислении, поскольку ни один из двухвыборочных t-тестов не был выбран.
➡️ Изучите вставленный лист с результатами:
Вот что мы видим на листе:
- Основные метрики, отображаемые как в таблице, так и на соответствующей диаграмме, показывают незначительную разницу между группами.
- Связанное с F-тестом p-значение на уровне 0,43 явно указывает, что различия в дисперсии между группами не являются статистически значимыми.
- Одновыборочные t-тесты для всех групп показывают связанные двусторонние p-значения значительно выше 0,05, подтверждая, что различия в средних значениях между группами также не являются статистически значимыми.
К счастью, и ANOVA F-тест, и одновыборочные t-тесты не показали никаких статистически значимых различий между группами. Это помогает нам убедиться, что мы можем продолжить эксперимент по плану и не беспокоиться о неравномерном или предвзятом распределении участников по группам.
Шаги 4-6: После изменения
Шаг 4: внедрение изменения и сбор новых данных
После того как изменения дизайна были применены к группам Отвлечение и Новый дизайн, были собраны новые данные. В таблицу были добавлены три новых листа:
- After Change: три столбца, содержащие данные групп так же, как лист из шага 2.
- Before/After: Distraction: лист с двумя столбцами; первый представляет участников группы Отвлечение до изменений UI, а второй — тех же участников после внедрения изменений UI.
- Before/After: New Design: лист с двумя столбцами об участниках группы Новый дизайн эксперимента.
Шаг 4.1: Лист After Change
Этот лист собран так же, как исходный набор данных, но после внедрения изменений дизайна.
| A | B | C |
|---|---|---|
| Control | Distraction | New Design |
| 10,3 | 13,0 | 8,1 |
| 9,2 | 7,1 | 13,2 |
| 11,1 | 7,7 | 9,2 |
| 10,6 | 14,1 | 9,6 |
| 12,9 | 11,7 | 10,6 |
| 10,7 | 10,4 | 12,1 |
| 10,4 | 12,4 | 9,7 |
| 11,8 | 11,4 | 10,3 |
| 10,2 | 11,0 | 11,8 |
| 11,7 | 13,7 | 11,8 |
| 15,0 | 15,8 | 11,3 |
| 12,6 | 10,0 | 10,9 |
| 12,4 | 14,5 | 12,3 |
| 12,3 | 11,3 | 9,7 |
| 11,4 | 15,1 | 12,7 |
| 13,8 | 12,0 | 9,9 |
| 10,5 | 13,5 | 8,1 |
| 9,7 | 9,2 | 10,4 |
| 11,8 | 12,5 | 11,4 |
| 13,5 | 12,6 | 10,7 |
| 12,4 | 13,7 | 13,8 |
| 9,3 | 11,7 | 10,9 |
| 10,4 | 10,7 | 10,7 |
| 13,0 | 12,1 | 10,5 |
| 13,4 | 12,8 | 6,8 |
| 11,8 | 10,9 | 10,0 |
| 13,1 | 15,1 | 10,9 |
| 12,2 | 11,2 | 10,8 |
| 13,9 | 9,0 | 8,9 |
| 15,4 | 9,8 | 12,2 |
| 10,1 | 11,4 | 11,0 |
| 10,8 | 10,6 | 6,4 |
| 12,6 | 14,9 | 8,4 |
| 12,6 | 14,0 | 14,5 |
| 13,3 | 13,0 | 9,1 |
| 10,2 | 11,8 | 11,5 |
| 10,9 | 7,7 | 10,0 |
| 9,7 | 13,8 | 8,5 |
| 12,1 | 11,0 | 12,6 |
| 10,9 | 10,2 | 12,1 |
| 10,2 | 8,6 | 8,5 |
| 11,1 | 9,3 | 11,8 |
| 11,9 | 14,9 | 12,3 |
| 12,8 | 11,6 | 11,6 |
| 14,2 | 12,5 | 11,3 |
| 8,9 | 10,0 | 10,9 |
| 10,6 | 14,3 | 11,7 |
| 10,6 | 11,4 | 11,8 |
| 12,7 | 14,2 | 11,9 |
| 11,4 | 9,7 | 11,6 |
Шаг 4.2: Лист Before/After: Distraction
В этом листе каждая строка представляет среднее время (в секундах), которое потребовалось конкретному участнику группы Отвлечение для поиска товарной позиции до и после внедрения изменений UI.
| A | B |
|---|---|
| Distraction: Before | Distraction: After |
| 13,4 | 13,0 |
| 9,3 | 7,1 |
| 11,5 | 7,7 |
| 13,3 | 14,1 |
| 12,3 | 11,7 |
| 11,0 | 10,4 |
| 14,1 | 12,4 |
| 12,0 | 11,4 |
| 11,7 | 11,0 |
| 13,2 | 13,7 |
| 15,7 | 15,8 |
| 11,0 | 10,0 |
| 12,5 | 14,5 |
| 12,7 | 11,3 |
| 14,1 | 15,1 |
| 11,1 | 12,0 |
| 12,1 | 13,5 |
| 11,1 | 9,2 |
| 11,9 | 12,5 |
| 11,9 | 12,6 |
| 12,2 | 13,7 |
| 12,1 | 11,7 |
| 11,7 | 10,7 |
| 12,0 | 12,1 |
| 11,7 | 12,8 |
| 10,3 | 10,9 |
| 13,7 | 15,1 |
| 11,5 | 11,2 |
| 10,5 | 9,0 |
| 10,4 | 9,8 |
| 12,1 | 11,4 |
| 11,9 | 10,6 |
| 13,4 | 14,9 |
| 12,7 | 14,0 |
| 14,7 | 13,0 |
| 13,3 | 11,8 |
| 9,4 | 7,7 |
| 13,4 | 13,8 |
| 11,2 | 11,0 |
| 10,6 | 10,2 |
| 9,6 | 8,6 |
| 10,8 | 9,3 |
| 14,3 | 14,9 |
| 9,5 | 11,6 |
| 12,4 | 12,5 |
| 10,3 | 10,0 |
| 13,7 | 14,3 |
| 11,8 | 11,4 |
| 14,1 | 14,2 |
| 12,6 | 9,7 |
Шаг 4.3: Лист Before/After: New Design
Каждая строка представляет среднее время (в секундах) для конкретного участника группы Новый дизайн до и после редизайна.
| A | B |
|---|---|
| New Design: Before | New Design: After |
| 9,7 | 8,1 |
| 13,9 | 13,2 |
| 10,9 | 9,2 |
| 12,4 | 9,6 |
| 11,5 | 10,6 |
| 13,8 | 12,1 |
| 11,6 | 9,7 |
| 12,5 | 10,3 |
| 13,6 | 11,8 |
| 12,5 | 11,8 |
| 12,7 | 11,3 |
| 12,3 | 10,9 |
| 13,6 | 12,3 |
| 11,4 | 9,7 |
| 14,6 | 12,7 |
| 12,1 | 9,9 |
| 8,9 | 8,1 |
| 12,5 | 10,4 |
| 11,8 | 11,4 |
| 12,4 | 10,7 |
| 15,0 | 13,8 |
| 12,0 | 10,9 |
| 11,9 | 10,7 |
| 12,4 | 10,5 |
| 8,3 | 6,8 |
| 11,5 | 10,0 |
| 13,0 | 10,9 |
| 12,5 | 10,8 |
| 10,4 | 8,9 |
| 13,9 | 12,2 |
| 11,6 | 11,0 |
| 7,7 | 6,4 |
| 9,8 | 8,4 |
| 15,5 | 14,5 |
| 11,2 | 9,1 |
| 13,2 | 11,5 |
| 11,3 | 10,0 |
| 10,4 | 8,5 |
| 13,1 | 12,6 |
| 13,8 | 12,1 |
| 10,4 | 8,5 |
| 13,5 | 11,8 |
| 13,5 | 12,3 |
| 13,7 | 11,6 |
| 13,2 | 11,3 |
| 11,8 | 10,9 |
| 13,1 | 11,7 |
| 12,5 | 11,8 |
| 13,7 | 11,9 |
| 12,5 | 11,6 |
Шаг 5: независимый t-тест Стьюдента
- ➡️ Откройте лист After Change, выберите первую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
- Выберите столбец Control в выпадающем списке Контрольная группа (скорее всего, он там уже по умолчанию).
- Выберите тесты для вычисления:
- Односторонний ANOVA F-тест
- T-тест: одновыборочный
- T-тест: независимые две выборки
- Введите 12,04 для μ0 (среднее популяции).
- Нажмите Вычислить тесты.
Конфигурация:
Результирующий лист:
Резюме:
- Диаграмма основных метрик явно показывает, что участники группы Новый дизайн находили необходимые товарные позиции немного быстрее (среднее время на 0,9 секунды или примерно на 8% ниже, чем у группы Контрольная), независимо от того, сравниваем ли мы среднее, медиану, 25-й или 75-й процентиль.
- Связанное с F-тестом p-значение на уровне 0,005 указывает, что разница в дисперсии между группами с высокой вероятностью не объясняется только случайностью.
- Одновыборочные t-тесты:
- показывают связанные двусторонние p-значения выше 0,05 как для группы Контрольная, так и для Отвлечение — это означает, что отклонение этих групп от среднего генеральной совокупности, полученного по исходным данным, не является статистически значимым.
- отображают одностороннее p-значение для группы Новый дизайн значительно ниже 0,05, подтверждая, что разница статистически значима.
- Независимые двухвыборочные t-тесты:
- разница в среднем для группы Отвлечение не является статистически значимой.
- изменение требуемого времени для группы Новый дизайн статистически значимо.
Этих результатов уже достаточно, чтобы представить их руководству и обосновать расширение охвата нового дизайна инвентаря и в конечном счёте включить его для всех пользователей ERP.
Однако для полноты этой статьи давайте также вычислим зависимые двухвыборочные t-тесты.
Шаг 6: зависимые (парные) t-тесты Стьюдента
В предыдущем разделе мы использовали независимые t-тесты Стьюдента для сравнения групп Отвлечение и Новый дизайн с группой Контрольная. В этом контексте отдельные строки менее значимы, поскольку каждая ячейка представляет время разных участников.
Однако, используя данные из листов Before/After: Distraction и Before/After: New Design, где каждая строка представляет одного участника, а столбцы показывают время до и после изменений UI соответственно, можно выполнить, вероятно, более детальные, парные (зависимые) t-тесты.
Шаг 6.1: парный t-тест для группы Отвлечение
- ➡️ Откройте лист Before/After: Distraction, выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
- Выберите столбец Distraction: Before в выпадающем списке Контрольная группа (скорее всего, это значение по умолчанию).
- Отметьте только T-тест: зависимые (парные) две выборки для вычисления.
- Нажмите Вычислить тесты.
Конфигурация:
Результирующий лист:
Резюме:
- Основные метрики, отображённые на диаграмме, показывают, что время немного ниже в среднем, а также для 25-го процентиля и даже медианного участника. Однако они выше для 75-го процентиля, что предполагает, что разница может объясняться расширенной дисперсией из-за новизны дизайна.
- Связанное двустороннее p-значение на уровне 0,14 указывает, что разница не является статистически значимой.
Шаг 6.2: парный t-тест для группы Новый дизайн
- ➡️ Откройте лист Before/After: New Design, выберите любую ячейку таблицы данных, откройте TableTorch и нажмите пункт меню Проверка гипотез.
- Выберите столбец New Design: Before в выпадающем списке Контрольная группа (скорее всего, это значение по умолчанию).
- Отметьте только T-тест: зависимые (парные) две выборки для вычисления.
- Нажмите Вычислить тесты.
Конфигурация:
Результирующий лист:
Резюме:
- Все основные метрики (среднее, медиана, 25-й и 75-й процентили) показывают более низкое время после редизайна.
- Связанное с парным t-тестом одностороннее p-значение значительно ниже 0,05, указывая, что изменение статистически значимо.
Шаг 7: выводы
Для простого эксперимента, подобного этому, просто взглянуть на диаграммы может быть достаточно, чтобы руководство приняло правильное решение. Однако TableTorch может быстро вычислить статистические тесты, такие как ANOVA F-тест и t-тест Стьюдента, тем самым помогая докладчику улучшить свою аргументацию, обосновывая продолжение усилий по редизайну UI и показывая, что повышение производительности ощутимо и статистически значимо. Кроме того, числа часто сложнее, чем кажутся, и полагаться только на средние значения и диаграммы иногда может ввести наблюдателя в заблуждение.
Примечание относительно односторонних и двусторонних p-значений
TableTorch вычисляет как односторонние, так и двусторонние связанные p-значения для ANOVA F-теста и t-тестов Стьюдента. Важно заранее выбрать, какое из них использовать для определения статистической значимости.
- Одностороннее p-значение: проверяет гипотезу о наличии значимого эффекта в одном конкретном направлении (либо увеличение, либо уменьшение). Используйте его, когда направление эффекта известно.
- Двустороннее p-значение: проверяет гипотезу о наличии значимого эффекта в любом направлении (как увеличение, так и уменьшение). Используется, когда нет предварительного предположения о направлении эффекта.
Google, Google Таблицы, Google Workspace и YouTube являются товарными знаками Google LLC. Gaujasoft TableTorch не связан с Google и не одобрен компанией Google.
Свяжитесь с нами!
Спасибо, что используете или рассматриваете TableTorch!
Точно и полно ли эта страница описывает соответствующую функцию? Действительно ли всё работает так, как здесь описано, или вы столкнулись с проблемой? Есть ли у вас предложения по улучшению?
Пожалуйста, свяжитесь с нами, если у вас есть вопросы.









