Як «мислить» ШІ: нейронні мережі, навчання та інференс

3D Simulations

🧠 ШІ · Машинне навчання

📅 Березень 2026⏱ 12 хв🟢 Для початківців · Останнє оновлення: 28 травня 2026 р.

Як «мислить» ШІ: нейронні мережі, навчання та інференс

ChatGPT, Midjourney та AlphaFold працюють за одним базовим принципом: подати дані в мережу з мільярдів чисел (параметрів), підлаштовувати ці числа, доки мережа не почне видавати корисні результати, а потім використовувати навчену мережу для генерації нового тексту, зображень чи прогнозів. Ось що насправді відбувається всередині.

Автор: Команда MySimulator · Редакційна перевірка: Редакція MySimulator

1. Штучний нейрон

Штучний нейрон приймає кілька чисел на вхід, множить кожне на вагу (наскільки важливий цей вхід?), додає їх, додає член зсуву (bias) і пропускає результат через функцію активації (щоб додати нелінійність).

вихід = активація( w₁\cdotx₁ + w₂\cdotx₂ + ... + wₙ\cdotxₙ + зсув ) Поширені функції активації: ReLU: max(0, x) (найпопулярніша — проста, швидка) Sigmoid: 1/(1 + e⁻ˣ) (стискає вихід до 0-1) Tanh: (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ) (вихід від -1 до 1) Окремий нейрон — це лише зважена сума + нелінійність. Магія виникає, коли з'єднати мільйони з них разом.

Ваги та зсуви — це параметри мережі, числа, які вона засвоює під час навчання. GPT-4 має, за оцінками, 1,8 трильйона параметрів. Кожен параметр — це просто число з рухомою комою, зазвичай збережене в 16 бітах (2 байти).

2. Шари та глибина

Нейрони впорядковано в шари. «Глибока» нейронна мережа має багато шарів, накладених один на одного:

Вхідний шар: отримує сирі дані (пікселі, слова як числа, показники датчиків).
Приховані шари: обробляють і перетворюють дані. Кожен шар виокремлює дедалі абстрактніші ознаки. Шар 1 може виявляти краї; шар 5 — очі; шар 10 — обличчя.
Вихідний шар: видає остаточну відповідь (розподіл імовірностей за класами, прогноз наступного слова, значення пікселів зображення).

Чому глибина має значення: неглибока мережа (1 прихований шар) теоретично може апроксимувати будь-яку функцію, але може потребувати астрономічно широкого шару. Глибокі мережі ефективніші — вони складають прості перетворення у складні, повторно використовуючи проміжні ознаки. Саме тому працює «глибоке навчання»: глибина уможливлює композиційність.

3. Навчання: засвоєння з даних

Навчання — це процес пошуку добрих значень для всіх параметрів (ваг і зсувів). Воно відбувається так:

Прямий прохід: подати навчальний приклад через мережу. Отримати вихід.
Обчислення втрат: порівняти вихід із правильною відповіддю. Обчислити число втрат (наскільки помилковим був вихід?). Для тексту: наскільки модель була здивована правильним наступним словом?
Зворотне поширення: обчислити, наскільки кожен параметр спричинив помилку. Це використовує ланцюгове правило з математичного аналізу для обчислення градієнтів — напрямку, у якому кожен параметр має зміститися, щоб зменшити втрати.
Оновлення: трохи скоригувати кожен параметр у напрямку, що зменшує втрати (градієнтний спуск). Швидкість навчання контролює величину кожного кроку.
Повторення: мільйони разів по всьому набору даних. Один прохід по набору даних = одна епоха. GPT-3 під час навчання побачив ~300 мільярдів токенів.

Правило оновлення градієнтного спуску: w_new = w_old - learning_rate \times \partialLoss/\partialw Навчання GPT-3: Параметри: 175 мільярдів Навчальні дані: 300 мільярдів токенів (~570 ГБ тексту) Обчислення: ~3 640 петафлоп-днів Вартість: ~$4,6 мільйона (за оцінками) Апаратне забезпечення: тисячі GPU NVIDIA A100

4. Трансформери та увага

Архітектура Transformer (Vaswani та ін., 2017, «Attention Is All You Need») є основою майже всього сучасного ШІ: GPT, BERT, Stable Diffusion, AlphaFold 2.

Ключове нововведення — самоувага (self-attention): кожен елемент входу (кожне слово, кожен фрагмент зображення) обчислює, наскільки сильно він має «звертати увагу» на кожен інший елемент. Це дає змогу моделі вловлювати далекосяжні залежності — слово на позиції 500 може напряму посилатися на слово на позиції 1.

Query, Key, Value: кожен токен породжує три вектори (Q, K, V). Оцінка уваги між токенами i та j = Q_i · K_j (скалярний добуток). Висока оцінка = i звертає увагу на j. Вихід для токена i — це зважена сума всіх векторів V, зважених за оцінками уваги.
Багатоголова увага: кілька незалежних голів уваги (8–128) працюють паралельно, кожна звертає увагу на різні аспекти (синтаксис, семантику, позицію). Їхні виходи об'єднуються (конкатенуються).
Чому це працює: на відміну від старіших RNN (які обробляють слова послідовно), трансформери обробляють усі позиції паралельно (швидко на GPU), а увага напряму поєднує будь-яку пару позицій (без інформаційного вузького місця).

5. Великі мовні моделі

LLM (як-от GPT-4, Claude, Gemini, Llama) — це трансформер, навчений передбачати наступне слово (токен). Це вся його навчальна мета. Усе інше — відповіді на запитання, написання коду, переклад мов — виникає з цього простого завдання, виконуваного у величезному масштабі.

Токенізація: текст розбивається на підслівні токени (~3–4 символи кожен). «understanding» → «under» + «stand» + «ing». Словник GPT-4 — це ~100 000 токенів.
Авторегресивна генерація: модель передбачає по одному токену за раз, додає його до входу й передбачає наступний. Саме тому текст з'являється слово за словом. Параметр температури контролює випадковість: низька температура = детермінованіше, висока температура = креативніше.
RLHF (навчання з підкріпленням на основі відгуків людей): після попереднього навчання модель доналаштовується на даних людських уподобань — люди оцінюють кілька варіантів виходу, і модель навчається віддавати перевагу вище оціненим. Це узгоджує модель з людськими очікуваннями (корисність, нешкідливість).

Чи «розуміє» ШІ? Це предмет дискусій. LLM очевидно засвоюють синтаксис, семантику, фактичні знання, патерни міркування й навіть певну теорію свідомості — і все це з передбачення тексту. Чи становить це «розуміння» у філософському сенсі — відкрите питання. Ясно одне: вони вловлюють статистичні патерни мови на глибині, що далеко перевершує будь-яку попередню технологію.

6. Генерація зображень (дифузія)

Дифузійні моделі (Stable Diffusion, DALL-E 3, Midjourney) працюють, навчаючись обертати шум назад:

Прямий процес: взяти реальне зображення й поступово додавати гаусів шум упродовж багатьох кроків, доки воно не перетвориться на чисті «перешкоди».
Навчання: навчити нейронну мережу передбачати й видаляти шум на кожному кроці. Маючи зашумлене зображення й рівень шуму, видати очищену версію.
Генерація: почати з чистого випадкового шуму. Застосовувати мережу шумозниження крок за кроком. Кожен крок прибирає трохи шуму, поступово виявляючи зв'язне зображення. Текстовий запит спрямовує напрямок шумозниження (через перехресну увагу з текстовим кодувальником, як-от CLIP).

Модель ніколи не «копіює» навчальні зображення — вона засвоює статистичний розподіл зображень і генерує нові зразки з цього розподілу. Кожне згенероване зображення є новим, складеним із засвоєних патернів (текстур, форм, композицій).

7. Обмеження та хибні уявлення

Галюцинації: LLM генерують правдоподібний на вигляд текст, який може бути фактично хибним. Вони оптимізують «звучить правильно», а не «є правильним». Вони не мають внутрішнього механізму перевірки фактів.
Немає моделі реального світу: LLM не мають фізичної моделі світу. Вони засвоюють кореляції в тексті, які часто наближають справжні знання — але можуть несподівано хибити на нових сценаріях поза їхнім навчальним розподілом.
Залежність від навчальних даних: модель може узагальнювати лише на основі побачених даних. Упередження в навчальних даних стають упередженнями у виходах. Знання мають дату відсікання.
Витрати енергії: навчання GPT-4 спожило, за оцінками, 50 ГВт·год — достатньо, щоб живити ~5 000 британських домівок рік. Інференс (запуск моделі) дешевший, але все одно суттєвий у масштабі: ~0,01 кВт·год на розмову.
Не свідомий: попри часто переконливу розмову, LLM є математичними функціями — матрицями чисел, обробленими через рівняння. Вони не мають свідомості, емоцій, бажань чи самоусвідомлення. Вони переконливо це імітують, бо саме це міститься в навчальних даних.