Перевірка гіпотез — p-значення, помилки I/II роду та статистична потужність
Перевірка значущості нульової гіпотези (NHST) — це найпоширеніший — і найчастіше неправильно зрозумілий — підхід до статистичного висновування в науці. Від клінічних випробувань ліків до фізики елементарних частинок та A/B-тестів дослідники використовують p-значення, щоб вирішити, чи є спостереження «статистично значущими». Розуміння того, що насправді означають p-значення, чому α=0.05 є довільною умовністю з наслідками, і як планувати дослідження з достатньою потужністю, є необхідним для критичного тлумачення наукової літератури.
1. Підхід NHST
Підхід Неймана-Пірсона до перевірки гіпотез передбачає:
- Сформулювати нульову гіпотезу H₀: Усталене, консервативне твердження — часто «немає ефекту» або «немає різниці». Приклад: H₀: новий препарат не змінює кров'яний тиск (μ_treatment = μ_control).
- Сформулювати альтернативну гіпотезу H₁: Твердження, на користь якого ви хочете знайти докази. Приклад: H₁: препарат знижує кров'яний тиск (μ_treatment < μ_control).
- Обрати рівень значущості α: Максимальна прийнятна ймовірність хибнопозитивного результату. За умовністю α = 0.05 у більшості соціальних/медичних наук; фізика використовує α = 0.0000003 (5σ) для відкриттів.
- Зібрати дані та обчислити тестову статистику: Число, що підсумовує, наскільки «екстремальними» є дані відносно H₀.
- Обчислити p-значення: P(тестова статистика ≥ спостережувана | H₀ істинна). Якщо p < α, відхиляємо H₀.
2. Що таке p-значення?
P-значення — це ймовірність спостерігати дані, принаймні настільки ж екстремальні, як спостережувані, за умови, що H₀ істинна. Це часто й суттєво неправильно тлумачать:
P-значення є властивістю даних та нульової гіпотези — а не альтернативної гіпотези чи світу. Мале p-значення означає лише те, що дані малоймовірні за H₀; воно нічого не каже про те, чи H₁ істинна або наскільки великий ефект.
3. Помилки I та II роду
Належний баланс між помилками I та II роду залежить від наслідків. У тестуванні безпеки ліків невиявлення шкідливого побічного ефекту (II роду) може бути гіршим за хибну тривогу; у фізиці елементарних частинок зниження α до 5σ запобігає тому, щоб «відкриття», які зникають (I роду), домінували в літературі.
4. Статистична потужність
Статистична потужність = 1 − β = ймовірність правильно відхилити H₀, коли H₁ істинна. Потужність залежить від чотирьох величин:
Аналіз потужності перед збором даних визначає, чи має дослідження достатню потужність для виявлення очікуваного ефекту. Дослідження з потужністю <80% ймовірно пропустять реальні, але малі ефекти й даватимуть невідтворювані результати, коли таки щось знаходять («прокляття переможця»).
5. Поширені тести
6. Розміри ефекту
P-значення каже вам, чи ефект «реальний» (а не просто вибірковий шум), але не те, чи він значущий. Розмір ефекту вимірює величину ефекту незалежно від обсягу вибірки:
- d Коена: (μ₁ − μ₂) / σ_pooled. Умовності: малий = 0.2, середній = 0.5, великий = 0.8.
- r (кореляція): мала = 0.1, середня = 0.3, велика = 0.5.
- η² (ета-квадрат): частка поясненої дисперсії в ANOVA. η² = SS_between / SS_total.
- Відношення шансів / відношення ризиків: природна міра ефекту для бінарних клінічних результатів.
За n = 1 000 000 цілком тривіальний ефект (d = 0.01) дасть p < 0.001. Завжди наводьте розміри ефекту поряд з p-значеннями. Медичне лікування, що знижує систолічний кров'яний тиск на 0,2 мм рт. ст. (d≈0.05), є «статистично високозначущим», але клінічно беззмістовним.
7. Криза відтворюваності
Дослідження 2015 року (Open Science Collaboration) намагалося відтворити 100 опублікованих психологічних досліджень. Лише 36–39% показали ефекти в тому самому напрямку за p < 0.05. Подібні результати з'явилися в онкобіології, економіці та дослідженнях харчування. Сприятливі чинники:
- p-хакінг: Перевірка кількох гіпотез, але звітування лише про значущі; припинення збору даних, коли p перетинає 0.05.
- HARKing (висування гіпотез після того, як результати відомі): Представлення апостеріорного розвідувального аналізу як заздалегідь визначеної підтверджувальної перевірки.
- Упередженість публікацій: Журнали віддають перевагу публікації результатів p < 0.05; нульові результати зникають у «шухлядах».
- Дослідження з недостатньою потужністю: Малі вибірки дають ненадійні оцінки, навіть коли p значуще.
- Множинні порівняння: Перевірка 20 незалежних гіпотез за α=0.05 очікувано дає 1 хибнопозитивний результат випадково.