Математика
📅 22 червня 2026 ⏱ ~8 хв читання · Останнє оновлення: 5 липня 2026 р.

Теорія інформації — Ентропія Шеннона і межі комунікації

Ентропія Шеннона, пропускна здатність каналу, стиснення даних, корекція помилок та застосування в криптографії й біології.

Коротко: Теорія інформації, засновником якої 1948 року був Клод Шеннон, вимірює мінімальну кількість бітів, потрібну для представлення повідомлення, та максимальну швидкість, з якою інформацію можна надійно передати через зашумлений канал. Її ключова величина, ентропія, кількісно виражає невизначеність і лежить в основі стиснення даних та кодів, що виправляють помилки.

1. Що таке інформація?

Знакова стаття Клода Шеннона 1948 року «Математична теорія комунікації» створила теорію інформації буквально з нуля. В одній статті Шеннон визначив, що таке інформація, довів фундаментальні межі стиснення й передачі та заклав математичний фреймворк, що лежить в основі кожної цифрової системи зв'язку, яка існує.

Ключова ідея концептуально несподівана: інформація — це про несподіванку, а не про сенс. Достовірна подія не несе жодної інформації — якщо ви вже знаєте, що сонце зійде, повідомлення про те, що воно зійшло, нічого вам не додає. Рідкісна подія несе багато інформації. Це повністю відходить від інтуїтивних уявлень про «змістовний вміст» і замінює їх математично точним поняттям.

Самоінформація (або несподіванка) події з імовірністю p(x) визначається як:

Самоінформація: I(x) = -log₂(p(x)) [вимірюється в бітах] Приклади: Кидок чесної монети (p = 0,5): I = -log₂(0,5) = 1 біт Чесний кубик, одна грань (p = 1/6): I = -log₂(1/6) ≈ 2,58 біта Достовірна подія (p = 1,0): I = -log₂(1) = 0 бітів (жодної несподіванки) Неможлива подія (p → 0): I → ∞

Логарифм за основою 2 дає одиниці бітів — природну одиницю, оскільки чесний бінарний вибір несе рівно 1 біт. Використання основи e дає нати (натуральні одиниці), а основи 10 — гартлі. Усі вони еквівалентні з точністю до постійного множника.

Важлива властивість: інформація адитивна для незалежних подій. Якщо два чесні монети кидаються незалежно, спостереження результату обох дає 2 біти інформації — суму окремих несподіванок. Ця властивість адитивності (завдяки логарифму) робить визначення математично природним і операційно змістовним.

2. Ентропія Шеннона

Тоді як самоінформація характеризує окрему подію, ентропія Шеннона H(X) характеризує всю випадкову величину — це очікувана (середня) самоінформація, що показує середню невизначеність до спостереження результату.

Ентропія Шеннона: H(X) = -Σₓ p(x) · log₂(p(x)) [біти] Максимальна ентропія: рівномірний розподіл на N результатах H_max = log₂(N) Умовна ентропія: H(Y|X) = -Σ_{x,y} p(x,y) log₂ p(y|x) Взаємна інформація: I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = наскільки знання Y зменшує невизначеність щодо X

Для чесної монети (p = 0,5 для кожної сторони): H = 1 біт. Для зміщеної монети з p = 0,9 для орла: H ≈ 0,47 біта — менше невизначеності, отже менше середньої інформації на кидок. Ентропія максимізується рівномірним розподілом і дорівнює точно 0, коли результат достовірний. Вона ніколи не може бути від'ємною.

Ключові взаємозв'язки між ентропіями показують, як інформація перетікає між змінними:

Взаємна інформація на практиці: взаємна інформація вимірює статистичну залежність, не припускаючи лінійності — вона фіксує будь-яку форму зв'язку між змінними. Це робить її потужним інструментом для відбору ознак у машинному навчанні (які входи насправді інформативні?) і в нейронауці (скільки інформації про заданий стимул кодує відповідь нейрона?).

Ентропія також пов'язана з термодинамікою: формула ентропії Больцмана S = k log W має ту саму математичну структуру, що й ентропія Шеннона. Це не збіг — обидві вимірюють кількість розрізнюваних станів або конфігурацій, що лежать в основі спостережуваного макростану.

3. Кодування джерела та стиснення даних

Теорема кодування джерела Шеннона встановлює фундаментальну межу стиснення даних без втрат: неможливо стиснути джерело даних нижче за темп його ентропії H(X) бітів на символ у середньому, але завжди можна наблизитися до цього як завгодно близько. Ентропія — це справжній незвідний інформаційний вміст.

Кодування Гаффмана (1952) — найпростіший оптимальний префіксний код. Алгоритм будує бінарне дерево знизу вгору: повторно об'єднує два найменш імовірні символи в комбінований вузол, призначаючи їм бітові суфікси 0 та 1. Отриманий код призначає коротші бінарні рядки більш імовірним символам.

Приклад із символами A (p=0,5), B (p=0,25), C (p=0,125), D (p=0,125):

Арифметичне кодування кодує все повідомлення як одне число в [0, 1). Воно підтримує поточний інтервал і звужує його з кожним символом пропорційно до ймовірності символу. На відміну від Гаффмана, воно не обмежене цілобітовими кодовими словами й досягає ентропії точніше, особливо для малих алфавітів або сильно зміщених розподілів.

Lempel-Ziv-Welch (LZW) застосовує інший підхід: стиснення на основі словника, що замінює повторювані шаблони посиланнями на спільний кодову книгу. Воно працює без попереднього знання розподілу джерела (воно універсальне). LZW лежить в основі стиснення зображень GIF, формату ZIP та потоків PDF.

Сучасні компресори: інструменти на кшталт zstd і Brotli поєднують LZ77 (пошук збігів за словником для повторюваних послідовностей) з ентропійним кодуванням Гаффмана або ANS (асиметричні числові системи). ANS досягає коефіцієнтів стиснення, близьких до арифметичного кодування, зі швидкістю, наближеною до кодування Гаффмана, і став ентропійним кодером вибору в найсучасніших компресорах.

4. Пропускна здатність каналу та корекція помилок

Реальний канал зв'язку вносить шум: перевертання бітів, стирання та завади. Теорема Шеннона про кодування для зашумленого каналу (найглибший результат теорії інформації) стверджує щось надзвичайне: надійний зв'язок можливий за будь-якої швидкості нижче пропускної здатності каналу C, хоч би яким зашумленим був канал, — за умови використання правильного коду, що виправляє помилки. І навпаки, надійний зв'язок неможливий вище C.

Теорема Шеннона-Хартлі дає пропускну здатність для каналу з адитивним білим гаусовим шумом (AWGN):

Пропускна здатність каналу: C = B · log₂(1 + S/N) [бітів за секунду] B = смуга пропускання (Гц) S/N = відношення сигнал/шум (лінійне, не в дБ) Приклад: телефонний канал (B=3 кГц, S/N=1000): C = 3000 · log₂(1001) ≈ 30 000 бітів/с Двійковий симетричний канал з імовірністю помилки p: C = 1 + p·log₂(p) + (1-p)·log₂(1-p) [бітів на використання каналу]

Ця формула встановлює абсолютні межі того, чого може досягти будь-яка система зв'язку, незалежно від схеми модуляції чи обробки сигналу. Єдині важелі — смуга пропускання та потужність сигналу.

Коди, що виправляють помилки, додають контрольовану надлишковість, щоб приймачі могли виявляти й виправляти помилки:

Застосування теорії інформації виходять далеко за межі зв'язку:

Досліджуйте симуляції алгоритмів

Побачте стиснення даних, сортування та алгоритми пошуку, візуалізовані в реальному часі.

Досліджувати симуляції алгоритмів →

Схожий контент

Часті запитання

Що таке нерівність Крафта?

Нерівність Крафта стверджує, що для будь-якого однозначно декодованого коду над алфавітом розміру r з довжинами кодових слів l₁, l₂, ..., lₙ сума Σ r^(-lᵢ) ≤ 1. І навпаки, для будь-якого набору довжин, що задовольняє нерівність Крафта, існує префіксний (миттєво декодований) код із цими довжинами. Цей фундаментальний результат пов'язує структуру коду з теорією стиснення й доводить, що будь-який однозначно декодований код можна замінити префіксним кодом рівної або меншої довжини.

Що таке AEP (властивість асимптотичної рівноймовірності)?

Властивість асимптотичної рівноймовірності (AEP) — це закон великих чисел теорії інформації. Для послідовності n незалежних однаково розподілених випадкових величин з ентропією H майже всі послідовності довжини n потрапляють у «типову множину» приблизно 2^(nH) майже рівноймовірних послідовностей, кожна з імовірністю ≈ 2^(-nH). AEP доводить, що ефективного кодування потребують лише типові послідовності — решту можна обробляти довшими кодами — і лежить в основі теореми Шеннона про кодування джерела.

Що таке пропускна здатність каналу і теорема кодування для зашумленого каналу?

Пропускна здатність каналу C = max_{p(x)} I(X;Y) — це максимальна взаємна інформація між входом X і виходом Y за всіх розподілів входу. Теорема Шеннона про кодування для зашумленого каналу гарантує: (1) швидкості нижче C досяжні з імовірністю помилки, що прямує до нуля, за допомогою довгих блокових кодів; (2) швидкості вище C призводять до неминучих помилок. Ця теорема була конструктивною в принципі, але оригінальний доказ Шеннона використовував випадкове кодування — практичні коди, що досягають пропускної здатності (турбо-коди, LDPC, полярні коди), були розроблені десятиліттями пізніше.

Що таке диференціальна ентропія і чим вона відрізняється від дискретної?

Диференціальна ентропія h(X) = -∫f(x)log f(x)dx поширює поняття ентропії на неперервні випадкові величини. На відміну від дискретної ентропії, диференціальна ентропія може бути від'ємною і не є інваріантною до детермінованих перетворень (масштабування X на a множить h(X) на log|a|). Максимальна диференціальна ентропія за умови обмеження потужності σ² досягається гаусовим розподілом: h(X) = (1/2)log(2πeσ²) бітів. Ці властивості роблять диференціальну ентропію менш «фізичною», ніж дискретна, але корисною для виведення пропускної здатності гаусового каналу.

Що таке ентропія Реньї?

Ентропія Реньї H_α(X) = (1/(1-α)) log Σ pᵢ^α узагальнює ентропію Шеннона (яка відновлюється при α→1). Різні значення α підкреслюють різні аспекти: H₀ — логарифм розміру носія (кількості можливих результатів), H₁ — ентропія Шеннона, H₂ — ентропія зіткнення (імовірність збігу двох випадкових вибірок), H_∞ — мін-ентропія (-log max pᵢ, використовується в криптографії). Ентропія Реньї з'являється в обчисленнях фрактальної розмірності, квантовій інформації та доказах криптографічної безпеки.

Що таке кодування каналу в практичних системах?

Сучасний цифровий зв'язок використовує потужні коди, що виправляють помилки, наближаючись до пропускної здатності Шеннона. Турбо-коди (1993, використовуються в 3G/4G) досягають характеристик, близьких до граничних, за допомогою двох рекурсивних згорткових кодів з ітеративним декодуванням. Коди LDPC (з розрідженою перевіркою парності, повторно відкриті 1996) використовують розріджені матриці парності та декодування поширенням довіри — використовуються в 5G, WiFi та DVB. Полярні коди (Аркан, 2009) доказово досягають пропускної здатності для двійкових симетричних каналів і є частиною 5G NR — перші доказово оптимальні практичні коди.

Який зв'язок між теорією інформації та криптографією?

Робота Шеннона 1949 року «Теорія зв'язку таємних систем» заклала основи інформаційно-теоретичної криптографії. Ідеальна таємність (шеннонівська безпека) вимагає, щоб шифротекст не розкривав жодної інформації про відкритий текст — досяжна лише з одноразовими блокнотами (ключі такої ж довжини, як повідомлення). Обчислювальна безпека (використовується на практиці) припускає обчислювально обмежених зловмисників. Інформаційно-теоретична безпека включає: коди автентифікації, доказово безпечні без обчислювальних припущень, схеми розподілу секрету та безпеку на фізичному рівні, що використовує властивості шуму каналу.

Що таке інформація Фішера?

Інформація Фішера I(θ) = E[(∂log p(X;θ)/∂θ)²] вимірює кількість інформації, яку спостережувана X несе про невідомий параметр θ. Границя Крамера-Рао стверджує, що дисперсія будь-якого незміщеного оцінювача становить щонайменше 1/I(θ) — інформація Фішера обмежує точність оцінювання. Інформація Фішера пов'язана з дивергенцією KL (це друга похідна KL при θ=0) і фігурує в методах природного градієнта для оптимізації нейронних мереж, які слідують найкрутішому спуску в просторі імовірнісних розподілів, а не в просторі параметрів.

Що таке теорія швидкості спотворення?

Теорія швидкості спотворення характеризує компроміс між швидкістю стиснення R (бітів на символ джерела) та допустимим спотворенням реконструкції D. Функція швидкості спотворення R(D) = min_{p(x̂|x): E[d(x,x̂)]≤D} I(X;X̂) дає мінімальну швидкість, необхідну для досягнення спотворення не більше D. Вона доводить, що всі системи стиснення з втратами стикаються з фундаментальною межею — функцією швидкості спотворення, — яку неможливо подолати. JPEG, MP3 та відеокодеки — це практичні спроби наблизитися до цієї теоретичної межі.

Який зв'язок між теорією інформації та статистичною механікою?

Інформаційна ентропія та термодинамічна ентропія глибоко пов'язані. H-теорема Больцмана (його формула ентропії) та формула ентропії Шеннона ідентичні за формою — Джейнс показав, що статистична механіка максимізує ентропію (невизначеність) за відомих обмежень (середньої енергії), що є точно баєсовим висновком за принципом максимальної ентропії, застосованим до фізичних систем. Вільна енергія в статистичній механіці дорівнює мінімальній довжині опису в теорії інформації. Цей зв'язок робить теорію інформації правильною мовою для статистичної механіки, перетворюючи її з фізики на висновок про системи з неповним знанням.