Перевірка гіпотез — p-значення, помилки I/II роду та статистична потужність

3D Simulations

Статистика · Математика · Наука про дані

📅 Квітень 2026 ⏱ ≈ 13 хв читання 🎯 Початковий–середній · Останнє оновлення: 28 травня 2026 р.

Перевірка гіпотез — p-значення, помилки I/II роду та статистична потужність

Перевірка значущості нульової гіпотези (NHST) — це найпоширеніший — і найчастіше неправильно зрозумілий — підхід до статистичного висновування в науці. Від клінічних випробувань ліків до фізики елементарних частинок та A/B-тестів дослідники використовують p-значення, щоб вирішити, чи є спостереження «статистично значущими». Розуміння того, що насправді означають p-значення, чому α=0.05 є довільною умовністю з наслідками, і як планувати дослідження з достатньою потужністю, є необхідним для критичного тлумачення наукової літератури.

Автор: Команда MySimulator · Редакційна перевірка: Редакція MySimulator

1. Підхід NHST

Підхід Неймана-Пірсона до перевірки гіпотез передбачає:

Сформулювати нульову гіпотезу H₀: Усталене, консервативне твердження — часто «немає ефекту» або «немає різниці». Приклад: H₀: новий препарат не змінює кров'яний тиск (μ_treatment = μ_control).
Сформулювати альтернативну гіпотезу H₁: Твердження, на користь якого ви хочете знайти докази. Приклад: H₁: препарат знижує кров'яний тиск (μ_treatment < μ_control).
Обрати рівень значущості α: Максимальна прийнятна ймовірність хибнопозитивного результату. За умовністю α = 0.05 у більшості соціальних/медичних наук; фізика використовує α = 0.0000003 (5σ) для відкриттів.
Зібрати дані та обчислити тестову статистику: Число, що підсумовує, наскільки «екстремальними» є дані відносно H₀.
Обчислити p-значення: P(тестова статистика ≥ спостережувана | H₀ істинна). Якщо p < α, відхиляємо H₀.

Відхилення H₀ ≠ доведення H₁: Перевірка гіпотез — це асиметрична процедура. Ви або «відхиляєте H₀», або «не можете відхилити H₀». Ви ніколи не «приймаєте H₀» й не «доводите H₁». Незначущий результат означає лише те, що ви не знайшли достатніх доказів проти H₀ — а не те, що H₀ істинна.

2. Що таке p-значення?

P-значення — це ймовірність спостерігати дані, принаймні настільки ж екстремальні, як спостережувані, за умови, що H₀ істинна. Це часто й суттєво неправильно тлумачать:

p-значення Є: P(дані настільки ж екстремальні чи екстремальніші | H₀ істинна) p-значення НЕ Є: P(H₀ істинна | дані) \leftarrow апостеріорна ймовірність (баєсівська) P(результати зумовлені випадковістю) \leftarrow поширена хибна думка Розмір ефекту \leftarrow p і розмір ефекту — окремі речі! Ймовірність хибного відкриття (без попередньої інформації) Приклад правильного тлумачення: «Якщо кров'яний тиск не відрізняється між групами (H₀), є 3% ймовірність спостерігати середню різницю настільки ж велику чи більшу за ту, що ми знайшли, лише через випадкову варіацію вибірки».

P-значення є властивістю даних та нульової гіпотези — а не альтернативної гіпотези чи світу. Мале p-значення означає лише те, що дані малоймовірні за H₀; воно нічого не каже про те, чи H₁ істинна або наскільки великий ефект.

3. Помилки I та II роду

Таблиця рішень: H₀ ІСТИННА H₀ ХИБНА Відхилити H₀ | Помилка I роду | Правильне відхилення | (α, хибнопозитивна)| (Потужність = 1-β) Не відхиляти | Правильно | Помилка II роду | (1-α) | (β, хибнонегативна) Помилка I роду (α): Відхилення H₀, коли H₀ насправді істинна «Хибнопозитивна» — напр., висновок, що препарат діє, коли він не діє Контролюється безпосередньо вибором α = 0.05 Помилка II роду (β): Невідхилення H₀, коли H₀ хибна «Хибнонегативна» — напр., пропуск реального ефекту препарату в дослідженні За умовністю: β \leq 0.20 (80% потужність), β \leq 0.10 (90% потужність) α та β обернено пов'язані (за фіксованого N): зменшення α \to збільшення β (надмірна консервативність пропускає більше реальних ефектів)

Належний баланс між помилками I та II роду залежить від наслідків. У тестуванні безпеки ліків невиявлення шкідливого побічного ефекту (II роду) може бути гіршим за хибну тривогу; у фізиці елементарних частинок зниження α до 5σ запобігає тому, щоб «відкриття», які зникають (I роду), домінували в літературі.

4. Статистична потужність

Статистична потужність = 1 − β = ймовірність правильно відхилити H₀, коли H₁ істинна. Потужність залежить від чотирьох величин:

Потужність = f(α, n, σ, δ) α : рівень значущості (вище α \to вища потужність) n : обсяг вибірки (більше n \to вища потужність) σ : стандартне відхилення генеральної сукупності (менше σ \to вища потужність) δ : справжній розмір ефекту = |μ₁ - μ₀| (більший ефект \to вища потужність) Для одновибіркового z-тесту: Потужність = Φ(z_α - δ\sqrtn/σ) де Φ = CDF стандартного нормального розподілу, z_α = z-критичне Необхідне n для цільової потужності (1-β), значущості α, розміру ефекту d = δ/σ: n \approx (z_α + z_β)² / d² [одновибірковий, односторонній] n \approx 2(z_α/2 + z_β)² / d² [двовибірковий, рівні групи, двосторонній] Приклад: d = 0.5 (середній ефект), α=0.05, потужність=0.80: n \approx 2 \times (1.96 + 0.84)² / 0.25 \approx 63 на групу

Аналіз потужності перед збором даних визначає, чи має дослідження достатню потужність для виявлення очікуваного ефекту. Дослідження з потужністю <80% ймовірно пропустять реальні, але малі ефекти й даватимуть невідтворювані результати, коли таки щось знаходять («прокляття переможця»).

5. Поширені тести

Тест Випадок застосування Статистика ───────────────────────────────────────────────────────────────────── Одновибірковий t-тест Одна група проти відомого середнього t = (x̄-μ₀)/(s/\sqrtn) Двовибірковий t-тест Порівняння двох незалежних груп t = (x̄₁-x̄₂)/se_diff Парний t-тест До-після, парні спостереження t = d̄/(s_d/\sqrtn) Хі-квадрат (узгодженість) Спостережувані проти очікуваних частот χ² = Σ(O-E)²/E Хі-квадрат (незалежність) Дві категоріальні змінні χ² = Σ(O-E)²/E ANOVA (F-тест) \geq3 групи, неперервний результат F = MS_between/MS_within U-тест Манна-Уітні Ненормальні / порядкові дані Рангова статистика Кореляція Пірсона Тест лінійного зв'язку t = r\sqrt(n-2)/\sqrt(1-r²) Степені свободи визначають нульовий розподіл: t(n-1), χ²(k-1), F(k-1, N-k) тощо.

6. Розміри ефекту

P-значення каже вам, чи ефект «реальний» (а не просто вибірковий шум), але не те, чи він значущий. Розмір ефекту вимірює величину ефекту незалежно від обсягу вибірки:

d Коена: (μ₁ − μ₂) / σ_pooled. Умовності: малий = 0.2, середній = 0.5, великий = 0.8.
r (кореляція): мала = 0.1, середня = 0.3, велика = 0.5.
η² (ета-квадрат): частка поясненої дисперсії в ANOVA. η² = SS_between / SS_total.
Відношення шансів / відношення ризиків: природна міра ефекту для бінарних клінічних результатів.

За n = 1 000 000 цілком тривіальний ефект (d = 0.01) дасть p < 0.001. Завжди наводьте розміри ефекту поряд з p-значеннями. Медичне лікування, що знижує систолічний кров'яний тиск на 0,2 мм рт. ст. (d≈0.05), є «статистично високозначущим», але клінічно беззмістовним.

7. Криза відтворюваності

Дослідження 2015 року (Open Science Collaboration) намагалося відтворити 100 опублікованих психологічних досліджень. Лише 36–39% показали ефекти в тому самому напрямку за p < 0.05. Подібні результати з'явилися в онкобіології, економіці та дослідженнях харчування. Сприятливі чинники:

p-хакінг: Перевірка кількох гіпотез, але звітування лише про значущі; припинення збору даних, коли p перетинає 0.05.
HARKing (висування гіпотез після того, як результати відомі): Представлення апостеріорного розвідувального аналізу як заздалегідь визначеної підтверджувальної перевірки.
Упередженість публікацій: Журнали віддають перевагу публікації результатів p < 0.05; нульові результати зникають у «шухлядах».
Дослідження з недостатньою потужністю: Малі вибірки дають ненадійні оцінки, навіть коли p значуще.
Множинні порівняння: Перевірка 20 незалежних гіпотез за α=0.05 очікувано дає 1 хибнопозитивний результат випадково.

Розв'язання: Попередня реєстрація дизайну дослідження та плану аналізу до збору даних; поправка Бонферроні або контроль частоти хибних відкриттів за Бенджаміні-Гохбергом для множинних порівнянь; баєсівський аналіз як альтернативний підхід; звітування про розміри ефекту з довірчими інтервалами поряд з p-значеннями; відкриті дані й код для відтворюваності.

📐 Дослідити математику →