🧠 ШІ · Машинне навчання
📅 Березень 2026⏱ 12 хв🟢 Для початківців · Останнє оновлення: 28 травня 2026 р.

Як «мислить» ШІ: нейронні мережі, навчання та інференс

ChatGPT, Midjourney та AlphaFold працюють за одним базовим принципом: подати дані в мережу з мільярдів чисел (параметрів), підлаштовувати ці числа, доки мережа не почне видавати корисні результати, а потім використовувати навчену мережу для генерації нового тексту, зображень чи прогнозів. Ось що насправді відбувається всередині.

1. Штучний нейрон

Штучний нейрон приймає кілька чисел на вхід, множить кожне на вагу (наскільки важливий цей вхід?), додає їх, додає член зсуву (bias) і пропускає результат через функцію активації (щоб додати нелінійність).

вихід = активація( w₁·x₁ + w₂·x₂ + ... + wₙ·xₙ + зсув ) Поширені функції активації: ReLU: max(0, x) (найпопулярніша — проста, швидка) Sigmoid: 1/(1 + e⁻ˣ) (стискає вихід до 0–1) Tanh: (eˣ − e⁻ˣ)/(eˣ + e⁻ˣ) (вихід від −1 до 1) Окремий нейрон — це лише зважена сума + нелінійність. Магія виникає, коли з'єднати мільйони з них разом.

Ваги та зсуви — це параметри мережі, числа, які вона засвоює під час навчання. GPT-4 має, за оцінками, 1,8 трильйона параметрів. Кожен параметр — це просто число з рухомою комою, зазвичай збережене в 16 бітах (2 байти).

2. Шари та глибина

Нейрони впорядковано в шари. «Глибока» нейронна мережа має багато шарів, накладених один на одного:

Чому глибина має значення: неглибока мережа (1 прихований шар) теоретично може апроксимувати будь-яку функцію, але може потребувати астрономічно широкого шару. Глибокі мережі ефективніші — вони складають прості перетворення у складні, повторно використовуючи проміжні ознаки. Саме тому працює «глибоке навчання»: глибина уможливлює композиційність.

3. Навчання: засвоєння з даних

Навчання — це процес пошуку добрих значень для всіх параметрів (ваг і зсувів). Воно відбувається так:

  1. Прямий прохід: подати навчальний приклад через мережу. Отримати вихід.
  2. Обчислення втрат: порівняти вихід із правильною відповіддю. Обчислити число втрат (наскільки помилковим був вихід?). Для тексту: наскільки модель була здивована правильним наступним словом?
  3. Зворотне поширення: обчислити, наскільки кожен параметр спричинив помилку. Це використовує ланцюгове правило з математичного аналізу для обчислення градієнтів — напрямку, у якому кожен параметр має зміститися, щоб зменшити втрати.
  4. Оновлення: трохи скоригувати кожен параметр у напрямку, що зменшує втрати (градієнтний спуск). Швидкість навчання контролює величину кожного кроку.
  5. Повторення: мільйони разів по всьому набору даних. Один прохід по набору даних = одна епоха. GPT-3 під час навчання побачив ~300 мільярдів токенів.
Правило оновлення градієнтного спуску: w_new = w_old − learning_rate × ∂Loss/∂w Навчання GPT-3: Параметри: 175 мільярдів Навчальні дані: 300 мільярдів токенів (~570 ГБ тексту) Обчислення: ~3 640 петафлоп-днів Вартість: ~$4,6 мільйона (за оцінками) Апаратне забезпечення: тисячі GPU NVIDIA A100

4. Трансформери та увага

Архітектура Transformer (Vaswani та ін., 2017, «Attention Is All You Need») є основою майже всього сучасного ШІ: GPT, BERT, Stable Diffusion, AlphaFold 2.

Ключове нововведення — самоувага (self-attention): кожен елемент входу (кожне слово, кожен фрагмент зображення) обчислює, наскільки сильно він має «звертати увагу» на кожен інший елемент. Це дає змогу моделі вловлювати далекосяжні залежності — слово на позиції 500 може напряму посилатися на слово на позиції 1.

5. Великі мовні моделі

LLM (як-от GPT-4, Claude, Gemini, Llama) — це трансформер, навчений передбачати наступне слово (токен). Це вся його навчальна мета. Усе інше — відповіді на запитання, написання коду, переклад мов — виникає з цього простого завдання, виконуваного у величезному масштабі.

Чи «розуміє» ШІ? Це предмет дискусій. LLM очевидно засвоюють синтаксис, семантику, фактичні знання, патерни міркування й навіть певну теорію свідомості — і все це з передбачення тексту. Чи становить це «розуміння» у філософському сенсі — відкрите питання. Ясно одне: вони вловлюють статистичні патерни мови на глибині, що далеко перевершує будь-яку попередню технологію.

6. Генерація зображень (дифузія)

Дифузійні моделі (Stable Diffusion, DALL-E 3, Midjourney) працюють, навчаючись обертати шум назад:

  1. Прямий процес: взяти реальне зображення й поступово додавати гаусів шум упродовж багатьох кроків, доки воно не перетвориться на чисті «перешкоди».
  2. Навчання: навчити нейронну мережу передбачати й видаляти шум на кожному кроці. Маючи зашумлене зображення й рівень шуму, видати очищену версію.
  3. Генерація: почати з чистого випадкового шуму. Застосовувати мережу шумозниження крок за кроком. Кожен крок прибирає трохи шуму, поступово виявляючи зв'язне зображення. Текстовий запит спрямовує напрямок шумозниження (через перехресну увагу з текстовим кодувальником, як-от CLIP).

Модель ніколи не «копіює» навчальні зображення — вона засвоює статистичний розподіл зображень і генерує нові зразки з цього розподілу. Кожне згенероване зображення є новим, складеним із засвоєних патернів (текстур, форм, композицій).

7. Обмеження та хибні уявлення