Статистика · Математика · Наука про дані
📅 Квітень 2026 ⏱ ≈ 13 хв читання 🎯 Початковий–середній · Останнє оновлення: 28 травня 2026 р.

Перевірка гіпотез — p-значення, помилки I/II роду та статистична потужність

Перевірка значущості нульової гіпотези (NHST) — це найпоширеніший — і найчастіше неправильно зрозумілий — підхід до статистичного висновування в науці. Від клінічних випробувань ліків до фізики елементарних частинок та A/B-тестів дослідники використовують p-значення, щоб вирішити, чи є спостереження «статистично значущими». Розуміння того, що насправді означають p-значення, чому α=0.05 є довільною умовністю з наслідками, і як планувати дослідження з достатньою потужністю, є необхідним для критичного тлумачення наукової літератури.

1. Підхід NHST

Підхід Неймана-Пірсона до перевірки гіпотез передбачає:

  1. Сформулювати нульову гіпотезу H₀: Усталене, консервативне твердження — часто «немає ефекту» або «немає різниці». Приклад: H₀: новий препарат не змінює кров'яний тиск (μ_treatment = μ_control).
  2. Сформулювати альтернативну гіпотезу H₁: Твердження, на користь якого ви хочете знайти докази. Приклад: H₁: препарат знижує кров'яний тиск (μ_treatment < μ_control).
  3. Обрати рівень значущості α: Максимальна прийнятна ймовірність хибнопозитивного результату. За умовністю α = 0.05 у більшості соціальних/медичних наук; фізика використовує α = 0.0000003 (5σ) для відкриттів.
  4. Зібрати дані та обчислити тестову статистику: Число, що підсумовує, наскільки «екстремальними» є дані відносно H₀.
  5. Обчислити p-значення: P(тестова статистика ≥ спостережувана | H₀ істинна). Якщо p < α, відхиляємо H₀.
Відхилення H₀ ≠ доведення H₁: Перевірка гіпотез — це асиметрична процедура. Ви або «відхиляєте H₀», або «не можете відхилити H₀». Ви ніколи не «приймаєте H₀» й не «доводите H₁». Незначущий результат означає лише те, що ви не знайшли достатніх доказів проти H₀ — а не те, що H₀ істинна.

2. Що таке p-значення?

P-значення — це ймовірність спостерігати дані, принаймні настільки ж екстремальні, як спостережувані, за умови, що H₀ істинна. Це часто й суттєво неправильно тлумачать:

p-значення Є: P(дані настільки ж екстремальні чи екстремальніші | H₀ істинна) p-значення НЕ Є: P(H₀ істинна | дані) ← апостеріорна ймовірність (баєсівська) P(результати зумовлені випадковістю) ← поширена хибна думка Розмір ефекту ← p і розмір ефекту — окремі речі! Ймовірність хибного відкриття (без попередньої інформації) Приклад правильного тлумачення: «Якщо кров'яний тиск не відрізняється між групами (H₀), є 3% ймовірність спостерігати середню різницю настільки ж велику чи більшу за ту, що ми знайшли, лише через випадкову варіацію вибірки».

P-значення є властивістю даних та нульової гіпотези — а не альтернативної гіпотези чи світу. Мале p-значення означає лише те, що дані малоймовірні за H₀; воно нічого не каже про те, чи H₁ істинна або наскільки великий ефект.

3. Помилки I та II роду

Таблиця рішень: H₀ ІСТИННА H₀ ХИБНА Відхилити H₀ | Помилка I роду | Правильне відхилення | (α, хибнопозитивна)| (Потужність = 1-β) Не відхиляти | Правильно | Помилка II роду | (1-α) | (β, хибнонегативна) Помилка I роду (α): Відхилення H₀, коли H₀ насправді істинна «Хибнопозитивна» — напр., висновок, що препарат діє, коли він не діє Контролюється безпосередньо вибором α = 0.05 Помилка II роду (β): Невідхилення H₀, коли H₀ хибна «Хибнонегативна» — напр., пропуск реального ефекту препарату в дослідженні За умовністю: β ≤ 0.20 (80% потужність), β ≤ 0.10 (90% потужність) α та β обернено пов'язані (за фіксованого N): зменшення α → збільшення β (надмірна консервативність пропускає більше реальних ефектів)

Належний баланс між помилками I та II роду залежить від наслідків. У тестуванні безпеки ліків невиявлення шкідливого побічного ефекту (II роду) може бути гіршим за хибну тривогу; у фізиці елементарних частинок зниження α до 5σ запобігає тому, щоб «відкриття», які зникають (I роду), домінували в літературі.

4. Статистична потужність

Статистична потужність = 1 − β = ймовірність правильно відхилити H₀, коли H₁ істинна. Потужність залежить від чотирьох величин:

Потужність = f(α, n, σ, δ) α : рівень значущості (вище α → вища потужність) n : обсяг вибірки (більше n → вища потужність) σ : стандартне відхилення генеральної сукупності (менше σ → вища потужність) δ : справжній розмір ефекту = |μ₁ - μ₀| (більший ефект → вища потужність) Для одновибіркового z-тесту: Потужність = Φ(z_α - δ√n/σ) де Φ = CDF стандартного нормального розподілу, z_α = z-критичне Необхідне n для цільової потужності (1-β), значущості α, розміру ефекту d = δ/σ: n ≈ (z_α + z_β)² / d² [одновибірковий, односторонній] n ≈ 2(z_α/2 + z_β)² / d² [двовибірковий, рівні групи, двосторонній] Приклад: d = 0.5 (середній ефект), α=0.05, потужність=0.80: n ≈ 2 × (1.96 + 0.84)² / 0.25 ≈ 63 на групу

Аналіз потужності перед збором даних визначає, чи має дослідження достатню потужність для виявлення очікуваного ефекту. Дослідження з потужністю <80% ймовірно пропустять реальні, але малі ефекти й даватимуть невідтворювані результати, коли таки щось знаходять («прокляття переможця»).

5. Поширені тести

Тест Випадок застосування Статистика ───────────────────────────────────────────────────────────────────── Одновибірковий t-тест Одна група проти відомого середнього t = (x̄-μ₀)/(s/√n) Двовибірковий t-тест Порівняння двох незалежних груп t = (x̄₁-x̄₂)/se_diff Парний t-тест До-після, парні спостереження t = d̄/(s_d/√n) Хі-квадрат (узгодженість) Спостережувані проти очікуваних частот χ² = Σ(O-E)²/E Хі-квадрат (незалежність) Дві категоріальні змінні χ² = Σ(O-E)²/E ANOVA (F-тест) ≥3 групи, неперервний результат F = MS_between/MS_within U-тест Манна-Уітні Ненормальні / порядкові дані Рангова статистика Кореляція Пірсона Тест лінійного зв'язку t = r√(n-2)/√(1-r²) Степені свободи визначають нульовий розподіл: t(n-1), χ²(k-1), F(k-1, N-k) тощо.

6. Розміри ефекту

P-значення каже вам, чи ефект «реальний» (а не просто вибірковий шум), але не те, чи він значущий. Розмір ефекту вимірює величину ефекту незалежно від обсягу вибірки:

За n = 1 000 000 цілком тривіальний ефект (d = 0.01) дасть p < 0.001. Завжди наводьте розміри ефекту поряд з p-значеннями. Медичне лікування, що знижує систолічний кров'яний тиск на 0,2 мм рт. ст. (d≈0.05), є «статистично високозначущим», але клінічно беззмістовним.

7. Криза відтворюваності

Дослідження 2015 року (Open Science Collaboration) намагалося відтворити 100 опублікованих психологічних досліджень. Лише 36–39% показали ефекти в тому самому напрямку за p < 0.05. Подібні результати з'явилися в онкобіології, економіці та дослідженнях харчування. Сприятливі чинники:

Розв'язання: Попередня реєстрація дизайну дослідження та плану аналізу до збору даних; поправка Бонферроні або контроль частоти хибних відкриттів за Бенджаміні-Гохбергом для множинних порівнянь; баєсівський аналіз як альтернативний підхід; звітування про розміри ефекту з довірчими інтервалами поряд з p-значеннями; відкриті дані й код для відтворюваності.
📐 Дослідити математику →