Як «мислить» ШІ: нейронні мережі, навчання та інференс
ChatGPT, Midjourney та AlphaFold працюють за одним базовим принципом: подати дані в мережу з мільярдів чисел (параметрів), підлаштовувати ці числа, доки мережа не почне видавати корисні результати, а потім використовувати навчену мережу для генерації нового тексту, зображень чи прогнозів. Ось що насправді відбувається всередині.
1. Штучний нейрон
Штучний нейрон приймає кілька чисел на вхід, множить кожне на вагу (наскільки важливий цей вхід?), додає їх, додає член зсуву (bias) і пропускає результат через функцію активації (щоб додати нелінійність).
Ваги та зсуви — це параметри мережі, числа, які вона засвоює під час навчання. GPT-4 має, за оцінками, 1,8 трильйона параметрів. Кожен параметр — це просто число з рухомою комою, зазвичай збережене в 16 бітах (2 байти).
2. Шари та глибина
Нейрони впорядковано в шари. «Глибока» нейронна мережа має багато шарів, накладених один на одного:
- Вхідний шар: отримує сирі дані (пікселі, слова як числа, показники датчиків).
- Приховані шари: обробляють і перетворюють дані. Кожен шар виокремлює дедалі абстрактніші ознаки. Шар 1 може виявляти краї; шар 5 — очі; шар 10 — обличчя.
- Вихідний шар: видає остаточну відповідь (розподіл імовірностей за класами, прогноз наступного слова, значення пікселів зображення).
Чому глибина має значення: неглибока мережа (1 прихований шар) теоретично може апроксимувати будь-яку функцію, але може потребувати астрономічно широкого шару. Глибокі мережі ефективніші — вони складають прості перетворення у складні, повторно використовуючи проміжні ознаки. Саме тому працює «глибоке навчання»: глибина уможливлює композиційність.
3. Навчання: засвоєння з даних
Навчання — це процес пошуку добрих значень для всіх параметрів (ваг і зсувів). Воно відбувається так:
- Прямий прохід: подати навчальний приклад через мережу. Отримати вихід.
- Обчислення втрат: порівняти вихід із правильною відповіддю. Обчислити число втрат (наскільки помилковим був вихід?). Для тексту: наскільки модель була здивована правильним наступним словом?
- Зворотне поширення: обчислити, наскільки кожен параметр спричинив помилку. Це використовує ланцюгове правило з математичного аналізу для обчислення градієнтів — напрямку, у якому кожен параметр має зміститися, щоб зменшити втрати.
- Оновлення: трохи скоригувати кожен параметр у напрямку, що зменшує втрати (градієнтний спуск). Швидкість навчання контролює величину кожного кроку.
- Повторення: мільйони разів по всьому набору даних. Один прохід по набору даних = одна епоха. GPT-3 під час навчання побачив ~300 мільярдів токенів.
4. Трансформери та увага
Архітектура Transformer (Vaswani та ін., 2017, «Attention Is All You Need») є основою майже всього сучасного ШІ: GPT, BERT, Stable Diffusion, AlphaFold 2.
Ключове нововведення — самоувага (self-attention): кожен елемент входу (кожне слово, кожен фрагмент зображення) обчислює, наскільки сильно він має «звертати увагу» на кожен інший елемент. Це дає змогу моделі вловлювати далекосяжні залежності — слово на позиції 500 може напряму посилатися на слово на позиції 1.
- Query, Key, Value: кожен токен породжує три вектори (Q, K, V). Оцінка уваги між токенами i та j = Q_i · K_j (скалярний добуток). Висока оцінка = i звертає увагу на j. Вихід для токена i — це зважена сума всіх векторів V, зважених за оцінками уваги.
- Багатоголова увага: кілька незалежних голів уваги (8–128) працюють паралельно, кожна звертає увагу на різні аспекти (синтаксис, семантику, позицію). Їхні виходи об'єднуються (конкатенуються).
- Чому це працює: на відміну від старіших RNN (які обробляють слова послідовно), трансформери обробляють усі позиції паралельно (швидко на GPU), а увага напряму поєднує будь-яку пару позицій (без інформаційного вузького місця).
5. Великі мовні моделі
LLM (як-от GPT-4, Claude, Gemini, Llama) — це трансформер, навчений передбачати наступне слово (токен). Це вся його навчальна мета. Усе інше — відповіді на запитання, написання коду, переклад мов — виникає з цього простого завдання, виконуваного у величезному масштабі.
- Токенізація: текст розбивається на підслівні токени (~3–4 символи кожен). «understanding» → «under» + «stand» + «ing». Словник GPT-4 — це ~100 000 токенів.
- Авторегресивна генерація: модель передбачає по одному токену за раз, додає його до входу й передбачає наступний. Саме тому текст з'являється слово за словом. Параметр температури контролює випадковість: низька температура = детермінованіше, висока температура = креативніше.
- RLHF (навчання з підкріпленням на основі відгуків людей): після попереднього навчання модель доналаштовується на даних людських уподобань — люди оцінюють кілька варіантів виходу, і модель навчається віддавати перевагу вище оціненим. Це узгоджує модель з людськими очікуваннями (корисність, нешкідливість).
6. Генерація зображень (дифузія)
Дифузійні моделі (Stable Diffusion, DALL-E 3, Midjourney) працюють, навчаючись обертати шум назад:
- Прямий процес: взяти реальне зображення й поступово додавати гаусів шум упродовж багатьох кроків, доки воно не перетвориться на чисті «перешкоди».
- Навчання: навчити нейронну мережу передбачати й видаляти шум на кожному кроці. Маючи зашумлене зображення й рівень шуму, видати очищену версію.
- Генерація: почати з чистого випадкового шуму. Застосовувати мережу шумозниження крок за кроком. Кожен крок прибирає трохи шуму, поступово виявляючи зв'язне зображення. Текстовий запит спрямовує напрямок шумозниження (через перехресну увагу з текстовим кодувальником, як-от CLIP).
Модель ніколи не «копіює» навчальні зображення — вона засвоює статистичний розподіл зображень і генерує нові зразки з цього розподілу. Кожне згенероване зображення є новим, складеним із засвоєних патернів (текстур, форм, композицій).
7. Обмеження та хибні уявлення
- Галюцинації: LLM генерують правдоподібний на вигляд текст, який може бути фактично хибним. Вони оптимізують «звучить правильно», а не «є правильним». Вони не мають внутрішнього механізму перевірки фактів.
- Немає моделі реального світу: LLM не мають фізичної моделі світу. Вони засвоюють кореляції в тексті, які часто наближають справжні знання — але можуть несподівано хибити на нових сценаріях поза їхнім навчальним розподілом.
- Залежність від навчальних даних: модель може узагальнювати лише на основі побачених даних. Упередження в навчальних даних стають упередженнями у виходах. Знання мають дату відсікання.
- Витрати енергії: навчання GPT-4 спожило, за оцінками, 50 ГВт·год — достатньо, щоб живити ~5 000 британських домівок рік. Інференс (запуск моделі) дешевший, але все одно суттєвий у масштабі: ~0,01 кВт·год на розмову.
- Не свідомий: попри часто переконливу розмову, LLM є математичними функціями — матрицями чисел, обробленими через рівняння. Вони не мають свідомості, емоцій, бажань чи самоусвідомлення. Вони переконливо це імітують, бо саме це міститься в навчальних даних.