Психоакустика: як ми чуємо звук
Коливання частотою 440 Гц проходить крізь повітря, потрапляє у слуховий прохід, змушує вібрувати барабанну перетинку, рухає три крихітні кісточки, зміщує рідину у згорнутій спіраллю трубці, згинає 15 000 волоскових клітин і запускає нейронний код, який ваш мозок інтерпретує як «ноту Ля». Психоакустика — це наука, що пов'язує цей фізичний процес із суб'єктивним сприйняттям, і її висновки лежать в основі всього: від стиснення MP3 до проєктування концертних залів.
1. Вухо як аналізатор спектра
Завитка (cochlea) виконує біологічний аналіз частот, подібний до перетворення Фур'є. Її базилярна мембрана — це звужувана структура: широка та гнучка на вершині (реагує на низькі частоти), вузька й жорстка біля основи (реагує на високі частоти):
2. Сприйняття гучності
3. Сприйняття висоти тону
Висота тону — це перцептивний відповідник основної частоти, проте цей зв'язок не такий простий:
- Теорія місця (фон Гельмгольц, 1863): Висота тону визначається тим, ДЕ на базилярній мембрані виникає максимальна вібрація. Добре пояснює розрізнення частот на високих частотах (>5 kHz). Але саме лише розташування передбачає розрізнення значно гірше, ніж спостерігається на низьких частотах.
- Часова (темпоральна) теорія: Для низьких частот (<4-5 kHz) збудження волоскових клітин синхронізоване за фазою зі стимулом — вони збуджуються переважно у певні фази. Мозок зчитує патерн міжімпульсних інтервалів → виокремлює період → визначає висоту тону. Пояснює ілюзію «відсутньої основної частоти» (складний тон, де f₀ прибрано, але гармоніки присутні — висота все одно сприймається на f₀).
- Сучасний синтез: Дуплексна теорія — свій внесок роблять і місце, і час. Низькі частоти: домінує час. Високі частоти: домінує місце. Середні частоти: внесок роблять обидва.
4. Критичні смуги та маскування
5. Бінауральний слух і локалізація
Два вуха забезпечують кілька акустичних ознак для локалізації звуку у трьох вимірах:
- Міжвушна різниця в часі (ITD): Звук справа надходить до правого вуха на ~700 μs раніше, ніж до лівого (для азимута 90°). Слуховий стовбур мозку (верхній оливарний комплекс, модель ліній затримки Джеффреса) виявляє ITD аж до 10–20 μs. Домінантна ознака азимута на низьких частотах (<1500 Hz).
- Міжвушна різниця рівнів (ILD): Голова затінює вищі частоти → різниця амплітуд між вухами. Домінантна ознака азимута на високих частотах (>2000 Hz).
- Передавальна функція голови (HRTF): Вушна раковина (зовнішнє вухо) діє як залежний від напрямку фільтр. Спектральне забарвлення від вушної раковини дає ознаки висоти джерела та розрізнення спереду/ззаду. Персоналізовані HRTF уможливлюють переконливе 3D-аудіо (просторовий звук у навушниках, Apple AirPods Spatial Audio).
6. Ефект вечірки з коктейлями
На галасливій вечірці з безліччю розмов ви можете зосередитися на одному мовцеві й стежити за ним, відфільтровуючи інших, — навіть коли акустика не виокремлює жодного голосу окремо. Ця дивовижна здатність задіює кілька перцептивних механізмів:
- Просторова увага: Бінауральні ознаки (ITD/ILD) розділяють джерела за розташуванням. Звуки з різних напрямків активують різні популяції нейронів → увага може обирати за просторовим потоком.
- Сегрегація слухових потоків (ASA): Брегман (1990) показав, що одночасні звуки групуються в перцептивні «потоки» на основі близькості частот, часової узгодженості, схожості тембру та просторового походження. Щойно формується цільовий потік, конкурентні потоки приглушуються увагою згори вниз.
- Передбачення згори вниз: Мовні знання, очікувана просодія та семантичний контекст дають сильні передбачення, що покращують виявлення цілі в шумі (заповнені шумом прогалини перцептивно доповнюються за контекстом — «фонемне відновлення»).
- Нейронні механізми: Слухова увага вибірково підсилює нейронні відповіді на ті звуки, на які звернено увагу, у слуховій корі (еквівалент покращення SNR на ~10 dB). Лобові поля зору та тім'яна кора здійснюють контроль згори вниз через кортикофугальні проєкції до медіального колінчастого тіла.
7. Слухові ілюзії
- Тон Шепарда: Накладання тонів, розділених октавою, усі з регульованою амплітудою. Поки тони повільно підвищуються за частотою, амплітудна обвідна залишається незмінною — тож коли вони починають виходити за верхню межу й стають нечутними, нові тони з'являються знизу. Перцептивний результат: висота тону здається такою, що зростає нескінченно. Крістофер Нолан використовував його протягом усього фільму «Дюнкерк», щоб створити нескінченну напругу.
- Відсутня основна частота: Складний тон, що складається з гармонік 200, 300, 400, 500 Hz (але НЕ 100 Hz). Сприймана висота: 100 Hz. Слухова система виводить основну частоту з гармонічного патерну, а не з прямого стимулу. Цілеспрямовано використовується телефонними інженерами (голос, стиснений до 300–3400 Hz, усе одно несе інформацію про висоту через гармоніки).
- Парадокс тритону (Дойч): Два тони, розділені тритоном (½ октави), — одні люди сприймають патерн як висхідний, інші як низхідний. Сприйняття залежить від засвоєної слухачем тональної області, що виявляє вплив мовного акценту на сприйняття висоти тону.
- Ефект Гааса / ефект передування: Коли однаковий звук досягає обох вух, але одна версія затримана на 1–40 ms, сприйманий звук надходить лише з напрямку першого приходу (навіть якщо другий трохи гучніший — до 10 dB). Використовується у звукопідсилювальних системах, щоб зберегти сприйняття звуку зі сцени, поки фронтальні гучномовці підсилюють гучність.