📅 Квітень 2026⏱ ≈ 12 хв читання🎯 Середній рівень·Останнє оновлення: 28 травня 2026 р.
Центральна гранична теорема — чому середні значення утворюють дзвоноподібну криву
Центральна гранична теорема — це, мабуть, найважливіша теорема в
статистиці. Вона стверджує, що середнє великої вибірки з
будь-якого розподілу зі скінченною дисперсією буде приблизно
нормально розподіленим — незалежно від того, чи є базовий
розподіл рівномірним, експоненційним, сильно асиметричним чи іншим
ненормальним. Цей єдиний факт лежить в основі z-критерію, t-критерію, довірчих
інтервалів, регресії та більшості класичного статистичного висновування.
Класична ЦГТ: Нехай X₁, X₂, ..., Xₙ — незалежні однаково розподілені (н.о.р.) випадкові величини з
середнім μ = E[Xᵢ] та дисперсією σ² = Var(Xᵢ) < ∞. Визначимо
стандартизоване вибіркове середнє: Zₙ = (X̄ₙ - μ) / (σ/√n) де X̄ₙ =
(X₁+...+Xₙ)/n Тоді: Zₙ ⟶ N(0, 1) за розподілом при n → ∞
Еквівалентно: √n (X̄ₙ - μ) ⟶ N(0, σ²) Ключові наслідки: • X̄ₙ
приблизно дорівнює N(μ, σ²/n) для великих n • 95% довірчий інтервал: x̄ ±
1.96·σ/√n • Якщо σ невідоме: x̄ ± t_(n-1, 0.025)·s/√n (t-розподіл)
Емпіричне правило: n ≥ 30 часто є "достатньо великим" для розподілів зі
сприятливою поведінкою. Для важкохвостих або сильно асиметричних: може знадобитися n ≥ 100 або
більше
2. Доведення через характеристичні функції
Найелегантніше доведення використовує
характеристичні функції (перетворення Фур'є
розподілів імовірностей). Характеристична функція випадкової
величини X дорівнює φ_X(t) = E[e^{itX}].
Схема доведення (теорема неперервності Леві): 1. Нехай Yᵢ = (Xᵢ - μ)/σ —
стандартизована. Тоді E[Yᵢ]=0, Var(Yᵢ)=1. Zₙ = (Y₁+...+Yₙ)/√n 2.
Характеристична функція стандартизованої суми: φ_{Zₙ}(t) = φ_Y(t/√n)ⁿ
(оскільки Yᵢ є н.о.р.) 3. Розклад у ряд Тейлора log φ_Y(t) навколо t=0: log
φ_Y(t) = log(1 + it·E[Y] - t²/2·E[Y²] + O(t³)) Оскільки E[Y]=0, Var(Y)=1:
log φ_Y(t) = -t²/2 + O(t³) 4. Підставляємо: log φ_{Zₙ}(t) = n · log
φ_Y(t/√n) = n · (-(t/√n)²/2 + O((t/√n)³)) = -t²/2 + O(1/√n) → -t²/2 при
n → ∞ 5. Отже: φ_{Zₙ}(t) → e^{-t²/2} Це точно є
характеристична функція N(0,1). 6. За теоремою неперервності Леві: Zₙ
→ N(0,1) за розподілом. □
3. Швидкість збіжності: теорема Беррі-Ессеена
ЦГТ стверджує, що збіжність відбувається, але не каже, наскільки швидко. Теорема Беррі-Ессеена
дає кількісну оцінку:
Беррі-Ессеен (1941/1942): sup_x |P(Zₙ ≤ x) - Φ(x)| ≤ C · ρ / (σ³ √n)
де: ρ = E[|X - μ|³] (третій абсолютний момент) σ²= Var(X) Φ = стандартна
нормальна функція розподілу C ≤ 0.4748 (найкраща відома константа, Шевцова 2011) Приклад:
величина Бернуллі(p) σ² = p(1-p), ρ = p(1-p)|1-2p| Макс. похибка ≤ 0.4748
× p(1-p)|1-2p| / (p(1-p))^(3/2) × 1/√n ≈ 1/(2√n) для p близько 0.5 При n =
100: макс. похибка функції розподілу ≤ 0.05 (5%) При n = 1000: макс. похибка ≤ 0.016
(1.6%) Практичний висновок: n=30 добре працює для симетричних одномодальних
розподілів; для асиметричних розподілів на кшталт експоненційного n=100+ є
надійнішим.
4. Дошка Гальтона
Дошка Гальтона (квінканкс), винайдена сером Френсісом
Гальтоном близько 1876 року, є фізичною демонстрацією ЦГТ. Кулька
падає крізь трикутний масив штифтів; біля кожного штифта вона відхиляється ліворуч
або праворуч з рівною ймовірністю. Накопичені знизу кульки
утворюють біноміальний розподіл, який за багатьох рядів наближається до
N(0,1).
Математичний зв'язок: За n рядів: горизонтальне положення кульки = сума
n кроків Бернуллі(0.5) Кожен крок: +1 (праворуч) або -1 (ліворуч) рівно
ймовірні Сума ~ Біноміальний(n, 0.5) — біноміальний з n кроками, p=0.5 За ЦГТ:
Біноміальний(n, p) → N(np, np(1-p)) при n → ∞ Стандартизований: → N(0, 1)
Трикутник Паскаля: елемент C(n, k) = кількість шляхів до штифта (n, k) Висота
стовпчика k ∝ C(n, k) — відповідає дзвоноподібній формі нормального розподілу. Дошка Гальтона
робить збіжність до нормального розподілу наочною: кінцеве положення кожної
кульки є сумою n незалежних випадкових
величин.
У більш загальному сенсі будь-яке явище, що є результатом
суми багатьох малих незалежних внесків, буде
приблизно нормально розподіленим. Саме тому зріст, похибки
вимірювань, показники IQ, кров'яний тиск та багато інших природних
величин мають дзвоноподібну форму.
5. Вибіркові розподіли у статистиці
ЦГТ є основою для
вибіркових розподілів — розподілів
статистик, обчислених із вибірок:
Вибіркова частка p̂: ~ N(p, p(1-p)/n) для великих n.
Використовується в A/B-тестуванні.
Різниця середніх X̄₁ − X̄₂: ~ N(μ₁−μ₂, σ₁²/n₁ +
σ₂²/n₂). Основа двовибіркового t-критерію.
Довірчі інтервали: X̄ ± z_{α/2} · σ/√n містить
справжнє μ у (1−α)% повторюваних експериментів.
Плутанина між "стандартною похибкою" та "стандартним відхиленням":
Стандартне відхилення σ вимірює розкид окремих спостережень.
Стандартна похибка SE = σ/√n вимірює розкид
вибіркового середнього у повторюваних експериментах. SE зменшується як 1/√n —
подвоєння обсягу вибірки зменшує невизначеність середнього на √2 ≈ 41%.
6. Коли ЦГТ не працює
ЦГТ має точні умови. Їх порушення має значення на практиці:
Важкохвості розподіли (нескінченна дисперсія): Якщо
Var(X) = ∞ (наприклад, розподіл Парето з хвостовим індексом α ≤ 2, розподіл
Коші), ЦГТ не застосовується. Вибіркові середні замість цього мають
стійкий розподіл Леві. Фінансові доходи та інтернет-
трафік часто мають степеневі хвости — вибіркові середні не збігаються до
нормального.
Залежні спостереження: Класична ЦГТ вимагає
н.о.р. вибірок. Корельовані часові ряди (акції, кліматичні
записи) потребують "функціональної ЦГТ" або умов перемішування. Проте
ЦГТ узагальнюється за слабкої залежності (процеси перемішування).
Неоднаково розподілені: ЦГТ Ляпунова охоплює
випадок незалежних, але не однаково розподілених величин: якщо кожна змінна вносить незначну частку
загальної дисперсії, ЦГТ все одно виконується.
Розподіл Коші не має ні середнього, ні дисперсії —
вибіркове середнє n розподілених за Коші випадкових величин саме є
розподіленим за Коші(0,1) для всіх n. Усереднення не допомагає. Це
крайній контрприклад до ЦГТ.
7. Узагальнення: багатовимірна та функціональна ЦГТ
Багатовимірна ЦГТ: Нехай X₁, X₂, ..., Xₙ — н.о.р. випадкові вектори в ℝᵈ
з вектором середніх μ та коваріаційною матрицею Σ. Тоді: √n (X̄ₙ - μ) → N_d(0,
Σ) (d-вимірний нормальний) Багатовимірний нормальний розподіл N_d(μ, Σ) має
щільність: f(x) = (2π)^(-d/2) |Σ|^(-1/2) exp(-½(x-μ)ᵀ Σ⁻¹ (x-μ))
Застосування: спільний розподіл вибіркових середніх корельованих
змінних, дельта-метод для нелінійних функцій вибіркових середніх,
багатовимірна регресія.
───────────────────────────────────────────────────── Функціональна ЦГТ
(теорема Донскера, 1951): Визначимо процес часткових сум: S_n(t) =
(X₁+...+X_{⌊nt⌋}) / (σ√n) Тоді S_n(·) → W(·) за розподілом (у
функціональному просторі C[0,1]), де W — стандартний броунівський рух.
Висновок: броунівський рух є універсальною границею масштабованих випадкових
блукань. Основа для стохастичних диференціальних рівнянь, моделі Блека-Шоулза,
виявлення точок зміни, броунівського мосту (розподіл
Колмогорова-Смирнова).
Таким чином ЦГТ поєднує теорію ймовірностей, статистичне висновування,
стохастичні процеси та математичну фізику в одну об'єднавчу
систему. Універсальність нормального розподілу — не
збіг, а математичний наслідок усереднення.