Штучний інтелект
Червень 2026 · 20 хв читання · Глибоке навчання · Нейронні мережі · Трансформери · Останнє оновлення: 22 червня 2026 р.

Машинне навчання — Від лінійної регресії до глибокого навчання

Автор: Команда MySimulator · Редакційна перевірка: Редакція MySimulator

Машинне навчання перетворило кожну галузь, якої торкнулося — комп'ютерний зір, природну мову, згортання білків, пошук ліків, ігри. За вражаючими результатами стоїть напрочуд цілісний математичний фреймворк: оптимізуйте функцію втрат за параметрами за допомогою градієнтного спуску, контролюйте узагальнення за допомогою регуляризації та масштабуйте за допомогою глибоких архітектур. Ця стаття простежує концептуальний шлях від лінійної регресії до трансформера — архітектури, що живить сучасні великі мовні моделі.

1. Парадигми навчання: з учителем, без учителя, з підкріпленням

Машинне навчання охоплює три широкі родини алгоритмів, що розрізняються характером сигналу зворотного зв'язку, доступного під час навчання:

Навчання з учителем

Маючи набір даних D = {(x₁, y₁), …, (x_N, y_N)} пар вхід-вихід, вивчіть функцію f_θ: X → Y, яка узагальнюється на невідомі входи. Мета — мінімізувати очікувану втрату на істинному розподілі даних — апроксимовану емпіричною мінімізацією ризику (ERM) на навчальній вибірці. Приклади: класифікація зображень, регресія, переклад, розпізнавання мовлення.

Навчання без учителя

Маючи немарковані дані {x₁, …, x_N}, виявіть структуру: кластери, многовиди, генеративні моделі або стиснені представлення. Модель не отримує явної цілі — вона має знайти власний сигнал у шаблонах даних. Приклади: кластеризація k-середніх, метод головних компонент (PCA), автокодувальники, генеративно-змагальні мережі (GAN), варіаційні автокодувальники (VAE), дифузійні моделі.

Навчання з підкріпленням

Агент взаємодіє із середовищем, обираючи дії a_t у стані s_t і отримуючи скалярну винагороду r_t. Мета — навчити політику π(a|s), яка максимізує сумарну дисконтовану винагороду:

G_t = Σ_{k=0}^{∞} γ^k · r_{t+k} (0 < γ < 1, коефіцієнт дисконтування) Оптимальна політика максимізує: V^π(s) = E_π[G_t | s_t = s] (функція цінності) Q^π(s,a) = E_π[G_t | s_t = s, a_t = a] (функція цінності дії)

Алгоритми RL включають Q-навчання, градієнти політики (REINFORCE), методи actor-critic (PPO, SAC) та модельне RL. AlphaGo/AlphaZero (2016–2017) та мінімізація енергії в AlphaFold використовували RL; ChatGPT використовує навчання з підкріпленням на основі зворотного зв'язку від людей (RLHF), щоб узгодити виходи мовної моделі з людськими перевагами.

🤖
Симулятор навчання з підкріпленням
Спостерігайте, як агент навчається орієнтуватися в лабіринті за допомогою Q-навчання в реальному часі

2. Компроміс зсув-дисперсія

Очікувану тестову похибку моделі можна розкласти на три компоненти:

E[(y − f̂(x))²] = Bias²[f̂(x)] + Var[f̂(x)] + σ²_noise Bias[f̂(x)] = E[f̂(x)] − f(x) (систематична похибка — недонавчання) Var[f̂(x)] = E[(f̂(x) − E[f̂(x)])²] (чутливість до навчальних даних — перенавчання) σ²_noise = незвідний шум у даних

Модель із високим зсувом (наприклад, лінійна регресія на нелінійних даних) послідовно робить один і той самий тип помилки незалежно від навчальних даних — їй бракує здатності вловити справжній шаблон (недонавчання). Модель із високою дисперсією (наприклад, поліном 50-го степеня, підігнаний до 20 зашумлених точок) підганяється під навчальні дані майже ідеально, але сильно коливається з різними навчальними вибірками (перенавчання).

Компроміс проявляється як U-подібна крива тестової похибки зі зростанням складності моделі: похибка спочатку зменшується, коли падає зсув, потім зростає, коли зростає дисперсія. Оптимальна складність перебуває в мінімумі тестової похибки. Сучасні великі нейронні мережі, здається, порушують цю картину через явище подвійного спуску: після початкової U-подібної кривої похибка знову зменшується зі зростанням розміру моделі далеко за поріг інтерполяції — явище, ще не повністю пояснене класичною статистичною теорією навчання.

Практичний наслідок: якщо ваша модель має високу точність на навчанні, але низьку на тесті, ви перенавчаєтеся — додайте регуляризацію, зберіть більше даних або зменшіть складність моделі. Якщо точність на навчанні теж низька, ви недонавчаєтеся — збільшіть ємність моделі, тренуйтеся довше або покращіть ознаки.

3. Функції втрат і градієнтний спуск

Навчання моделі означає мінімізацію функції втрат L(θ) за параметрами θ. Поширені функції втрат:

Регресія: MSE = (1/N) Σ (y_i − f_θ(x_i))² Класифікація: Перехресна ентропія = −(1/N) Σ_i Σ_c y_{i,c} log p_{i,c} Бінарна: BCE = −(1/N) Σ [y log p + (1−y) log(1−p)]

Градієнтний спуск ітеративно рухає параметри в напрямку найкрутішого спуску:

θ_{t+1} = θ_t − η · ∇_θ L(θ_t) де η — швидкість навчання (типові значення: 10⁻⁴ до 10⁻¹) Стохастичний градієнтний спуск (SGD): обчислити градієнт на міні-пакеті B ⊂ D: θ_{t+1} = θ_t − η · (1/|B|) Σ_{(x,y)∈B} ∇_θ ℓ(f_θ(x), y)

Сучасні оптимізатори використовують адаптивні швидкості навчання. Adam (Кінгма і Ба, 2014) підтримує експоненційні ковзні середні градієнтів (m_t) і квадратів градієнтів (v_t) для кожного параметра:

m_t = β₁ m_{t−1} + (1−β₁) g_t (перший момент, β₁ = 0,9) v_t = β₂ v_{t−1} + (1−β₂) g_t² (другий момент, β₂ = 0,999) m̂_t = m_t / (1−β₁ᵗ) (скориговане зміщення) v̂_t = v_t / (1−β₂ᵗ) θ_{t+1} = θ_t − η · m̂_t / (√v̂_t + ε) (ε = 10⁻⁸ для чисельної стабільності)

Adam адаптує розмір кроку для кожного параметра, збігаючись швидше за звичайний SGD у більшості задач. Варіанти включають AdamW (роз'єднаний спад ваг), AdaGrad, RMSProp та Lion.

4. Регуляризація: L1, L2 та дропаут

Регуляризація додає обмеження або шум, щоб запобігти перенавчанню, зміщуючи модель до простіших розв'язків.

L2-регуляризація (Ridge / спад ваг)

Додає штраф, пропорційний квадрату величини ваг:

L_total = L_data + λ Σ_j θ_j² Оновлення градієнта: θ_j ← θ_j (1 − ηλ) − η ∂L_data/∂θ_j Ефект: стискає всі ваги до нуля; без точної розрідженості. Баєсова інтерпретація: еквівалентно гаусовому апріорному розподілу на вагах.

L1-регуляризація (Lasso)

Додає штраф, пропорційний абсолютному значенню ваг:

L_total = L_data + λ Σ_j |θ_j| Ефект: зводить деякі ваги точно до нуля → розріджені розв'язки. Баєсова інтерпретація: еквівалентно апріорному розподілу Лапласа на вагах. Використовується для відбору ознак у задачах високої розмірності.

Дропаут

Під час навчання випадково зануляє кожен нейрон з імовірністю p (зазвичай p = 0,1 до 0,5). Під час тестування всі нейрони активні, а виходи масштабуються на (1 − p):

Навчання: ĥ_i = h_i · Bernoulli(1−p) / (1−p) (інвертований дропаут) Тест: ĥ_i = h_i (масштабування не потрібне)

Дропаут можна тлумачити як навчання ансамблю 2^N різних «прорідженних» мереж (для N нейронів) з подальшим усередненням при тестуванні. Він запобігає ко-адаптації: нейрони не можуть покладатися на те, що конкретні інші нейрони завжди присутні. Сучасні великі мовні моделі використовують частоти дропауту 0,1–0,3 у шарах уваги; візуальні трансформери часто взагалі не використовують дропаут, натомість застосовуючи стохастичну глибину (відкидання цілих залишкових блоків).

5. Згорткові нейронні мережі

Згорткові нейронні мережі (CNN) використовують трансляційну інваріантність природних зображень, щоб різко зменшити кількість параметрів порівняно з повнозв'язними мережами. Три ключові операції визначають CNN:

Шар згортки

(X * W)_{i,j,k} = Σ_{di,dj,c} X_{i·s+di, j·s+dj, c} · W_{di,dj,c,k} де: X — вхідна карта ознак (висота × ширина × канали) W — тензор фільтра (kernel_h × kernel_w × вхідні_канали × вихідні_канали) s — крок; k індексує вихідний канал (карту ознак)

Ядро згортки 3×3 з 64 вхідними та 128 вихідними каналами має лише 3×3×64×128 = 73 728 параметрів — проти 64×128×H×W параметрів для повнозв'язного шару. Просторовий поділ — ключ: той самий фільтр застосовується всюди на зображенні.

Шар пулінгу

Максимальний пулінг (поширений) або усереднювальний пулінг зменшує просторові виміри, беручи максимум або середнє за локальним вікном (зазвичай 2×2 з кроком 2), удвічі зменшуючи просторову роздільну здатність. Пулінг забезпечує певну ступінь трансляційної інваріантності й зменшує обчислення.

Розгортання та повнозв'язна «голова»

Після кількох блоків «згортка-пулінг» просторова карта ознак розгортається у вектор і проходить через повнозв'язні шари для класифікації. Сучасні архітектури замінюють повнозв'язну «голову» глобальним усереднювальним пулінгом (GAP), додатково зменшуючи кількість параметрів і перенавчання.

Знакові архітектури CNN: AlexNet (2012, переміг у ImageNet зі значним відривом), VGG-16 (2014, глибока й однорідна), ResNet (2015, залишкові з'єднання, що уможливлюють 152+ шарів), EfficientNet (2019, пошук нейронної архітектури). Із 2020 року візуальні трансформери (ViT) зрівнялися або перевершили CNN на великих наборах даних.

🧠
Симулятор навчання нейронної мережі
Візуалізуйте прямий прохід, зворотне поширення та оновлення ваг у реальному часі

6. Рекурентні мережі та LSTM

Стандартні прямопоширювальні мережі обробляють входи фіксованого розміру. Рекурентні нейронні мережі (RNN) підтримують прихований стан h_t, що накопичує інформацію вздовж послідовності x₁, x₂, …:

h_t = tanh(W_h · h_{t−1} + W_x · x_t + b) y_t = W_y · h_t + b_y Параметри W_h, W_x спільні для всіх часових кроків — уможливлюючи обробку послідовностей змінної довжини з фіксованою кількістю параметрів.

Прості RNN страждають від згасання та вибуху градієнтів: при зворотному поширенні через багато часових кроків градієнти множаться на W_h на кожному кроці. Якщо ||W_h|| < 1, градієнти згасають; якщо ||W_h|| > 1, вони вибухають. Це унеможливлює навчання довгострокових залежностей.

Довга короткочасна пам'ять (LSTM)

Хохрайтер і Шмідхубер (1997) представили комірку LSTM з явними механізмами вентилів для керування потоком інформації на довгих послідовностях:

f_t = σ(W_f · [h_{t−1}, x_t] + b_f) (вентиль забування) i_t = σ(W_i · [h_{t−1}, x_t] + b_i) (вхідний вентиль) o_t = σ(W_o · [h_{t−1}, x_t] + b_o) (вихідний вентиль) c̃_t = tanh(W_c · [h_{t−1}, x_t] + b_c) (кандидат стану комірки) c_t = f_t ⊙ c_{t−1} + i_t ⊙ c̃_t (оновлення стану комірки) h_t = o_t ⊙ tanh(c_t) (прихований стан) σ = сигмоїда, ⊙ = поелементний добуток

Стан комірки c_t діє як «магістраль пам'яті», здатна нести інформацію без змін через сотні часових кроків. Вентиль забування може навчитися очищати пам'ять; вхідний вентиль може навчитися вибірково записувати. LSTM домінували в моделюванні послідовностей (мова, мовлення, часові ряди) приблизно з 2015 року, доки трансформери не витіснили їх у 2017–2019 роках.

7. Механізм уваги

Увага дозволяє моделі фокусуватися на релевантних частинах свого входу під час формування кожного виходу, замість стискання всього входу в один вектор фіксованого розміру. Масштабована увага на основі скалярного добутку (Бахданау 2015, Луонг 2015, Васвані 2017) обчислює:

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V де: Q ∈ R^{n×d_k} = матриця запитів (з декодера чи поточного токена) K ∈ R^{m×d_k} = матриця ключів (з енкодера чи попередніх токенів) V ∈ R^{m×d_v} = матриця значень (з енкодера чи попередніх токенів) d_k = розмірність ключа (масштабування запобігає насиченню softmax) Вага уваги A_{ij} = exp(q_i · k_j / √d_k) / Σ_l exp(q_i · k_l / √d_k)

Кожен запитовий токен i звертає увагу на кожен ключовий токен j з вагою A_{ij}, яку можна тлумачити як м'яке отримання: вихід для запиту i — це зважена сума значень, де ваги вимірюють сумісність запит-ключ. Масштабування на 1/√d_k запобігає надмірному зростанню скалярних добутків у високих розмірностях, що спричинило б концентрацію виходів softmax поблизу нуля або одиниці (згасання градієнтів).

Багатоголова увага

MultiHead(Q, K, V) = Concat(head_1, …, head_h) · W_O head_i = Attention(Q·W_i^Q, K·W_i^K, V·W_i^V) Типово: h = 8 голів, d_model = 512, d_k = d_v = d_model/h = 64

Кілька голів дозволяють моделі одночасно звертати увагу на різні аспекти — одна голова може вловлювати синтаксичні зв'язки, інша — семантичну подібність, ще інша — позиційну близькість. Виходи конкатенуються й проєктуються назад у d_model.

8. Архітектура трансформера

Васвані та ін. (2017) у праці «Увага — це все, що потрібно» представили трансформер — повністю відмовившись від рекурентності на користь чистої уваги. Трансформер «енкодер-декодер» складається зі стосу однакових шарів:

Шар енкодера

h' = LayerNorm(x + MultiHeadSelfAttention(x, x, x)) h = LayerNorm(h' + FFN(h')) FFN(x) = max(0, x·W₁ + b₁)·W₂ + b₂ (двошаровий MLP, активація ReLU) W₁ ∈ R^{d_model × d_ff}, d_ff = 4·d_model зазвичай

Самоувага дозволяє кожній позиції звертати увагу на всі позиції в тому самому шарі — вловлюючи довгострокові залежності за довжину шляху O(1) замість довжини шляху O(n) у RNN. Залишкові з'єднання (x + …) та нормалізація шару критично важливі для стабільного навчання глибоких стосів (6–96 шарів на практиці).

Позиційне кодування

На відміну від RNN, увага не має вбудованого поняття порядку. Позиційна інформація вводиться додаванням позиційного кодування PE до вхідних вкладень:

PE(pos, 2i) = sin(pos / 10000^{2i/d_model}) PE(pos, 2i+1) = cos(pos / 10000^{2i/d_model}) Сучасні LLM використовують натомість Rotary Position Embedding (RoPE) або ALiBi, які краще узагальнюються на довші послідовності, ніж ті, на яких відбувалося навчання.

Закони масштабування

Каплан та ін. (2020) показали, що продуктивність трансформера масштабується за степеневим законом залежно від розміру моделі N, розміру набору даних D та обчислювального бюджету C:

L(N) ∝ N^{−0,076} (втрата зменшується з кількістю параметрів) L(D) ∝ D^{−0,095} (втрата зменшується з кількістю токенів) Закон Chinchilla (Хоффман 2022): N_opt ∝ C^{0,5}, D_opt ∝ C^{0,5} → оптимально: ~20 токенів на параметр для обчислювально-оптимального навчання
🌲
Симулятор дерева рішень
Досліджуйте, як деревоподібні моделі розбивають дані, і порівнюйте з нейронними підходами

9. Поза межами навчання з учителем

Архітектура трансформера живить системи далеко за межами класифікації тексту. Кілька помітних розширень ілюструють широту сучасного МН:

Сучасний передній край (2025–2026): архітектури Mixture-of-Experts (MoE) активують лише частину параметрів на токен, уможливлюючи моделі з трильйоном параметрів за прийнятної обчислювальної вартості. Моделі простору станів (Mamba, S4) пропонують лінійне за часом моделювання послідовностей як альтернативу увазі з квадратичною вартістю. Масштабування обчислень під час висновування (ланцюжок міркувань, пошук, моделі світу) постає новою віссю поряд із масштабуванням параметрів і даних.

Джерела