Навчання з підкріпленням простими словами
Навчання з підкріпленням навчає агента добре діяти в середовищі методом спроб і помилок. AlphaGo, ШІ, що грають в Atari, донавчання ChatGPT (RLHF) та роботизовані маніпулятори — усі використовують ту чи іншу форму RL. В основі лежать лише два рівняння: рівняння Беллмана та Q-навчання.
Цикл агент-середовище
На кожному кроці часу агент спостерігає стан середовища, обирає дію й отримує винагороду та наступний стан.
- Стан sₜ: Повний опис ситуації (позиції на шаховій дошці, кути суглобів робота, масив пікселів).
- Дія aₜ: Те, що робить агент (рух ліворуч, прикладання крутного моменту, написання слова).
- Винагорода rₜ: Скалярний сигнал — +1 за перемогу, −1 за програш, 0 в інших випадках, або певне неперервне значення.
- Стратегія π(s): Стратегія агента — функція, що відображає стан у дію.
Мета — знайти стратегію π*, яка максимізує загальну накопичену винагороду з часом.
Марковські процеси прийняття рішень
Формальною основою для RL є марковський процес прийняття рішень (MDP), заданий кортежем (S, A, P, R, γ):
- S: Простір станів
- A: Простір дій
- P(s'|s,a): Ймовірність переходу — ймовірність опинитися у стані s' після виконання дії a у стані s
- R(s,a): Функція винагороди
- γ (гамма): Коефіцієнт дисконтування, 0 ≤ γ < 1
Марковська властивість стверджує, що наступний стан залежить лише від поточного стану та дії, а не від історії. На практиці агент часто не знає P чи R — він мусить навчатися з досвіду.
Винагороди та дисконтування
Сумарна винагорода Gₜ — це загальна винагорода починаючи з моменту t і далі. Ми не зважуємо майбутні винагороди однаково — винагорода зараз краща за таку саму винагороду в далекому майбутньому. Дисконтована сумарна винагорода дорівнює:
За γ = 0.99 винагорода за 100 кроків коштує лише 0.99¹⁰⁰ ≈ 0.37 винагороди прямо зараз. γ = 0 означає, що агент абсолютно короткозорий; γ → 1 означає, що він планує дуже далеко наперед. Типові значення: 0.95–0.999.
Функції цінності та стратегія
Функція цінності стану V(s) оцінює очікувану сумарну винагороду, якщо починати зі стану s за стратегією π:
Функція цінності дії Q(s, a) оцінює очікувану сумарну винагороду, якщо виконати дію a у стані s, а потім дотримуватися π:
Якщо ви знаєте Q*(s,a) — оптимальні Q-значення — оптимальна стратегія проста: завжди обирати дію з найвищим Q-значенням: π*(s) = argmaxa Q*(s,a).
Рівняння Беллмана
Рівняння оптимальності Беллмана для Q* виражає рекурсивний зв'язок між Q-значеннями:
Воно стверджує: цінність пари (стан s, дія a) — це негайна винагорода плюс дисконтована цінність найкращої дії з наступного стану. Ця умова самоузгодженості однозначно визначає Q*.
Q-навчання
Q-навчання — це безмодельний алгоритм, який використовує вибірковий досвід, щоб збігтися до Q*, не знаючи ймовірностей переходів середовища. Правило оновлення, застосоване після кожного переходу (s, a, r, s'):
Частина у квадратних дужках — це TD-похибка (похибка часової різниці) — наскільки помилкове поточне Q-значення відносно цілі Беллмана. α — це швидкість навчання.
Для малих дискретних просторів станів/дій Q-значення зберігаються в таблиці. Приклад для простої сітки 2×2 з 4 діями руху:
| Стан | Ліворуч | Праворуч | Вгору | Вниз |
|---|---|---|---|---|
| s₀ | 0.0 | 0.8 | 0.2 | 0.1 |
| s₁ | 0.3 | 0.1 | 0.9 | 0.4 |
| s₂ | 1.0 | 0.0 | 0.6 | 0.2 |
Агент обирає виділену дію (з найвищим Q) для кожного стану. Після багатьох епізодів Q-навчання збігається до оптимальних значень для будь-якого скінченного MDP за достатнього дослідження.
Дослідження проти експлуатації
Чисто жадібний агент завжди обирає дію з найвищим Q. Але що, якщо Q-значення помилкові на ранніх етапах навчання? Він може пропустити кращі альтернативи. Агенту потрібно досліджувати.
ε-жадібна стратегія
З імовірністю ε обираємо випадкову дію; інакше обираємо жадібну дію. ε зазвичай поступово зменшують від 1.0 → 0.05 протягом навчання.
Глибокі Q-мережі (DQN)
Для великих або неперервних просторів станів (наприклад, сирих пікселів з гри Atari) Q-таблиця має забагато записів для зберігання. Глибока Q-мережа (DQN) замінює таблицю нейронною мережею: Q(s, a; θ) ≈ Q*(s, a).
Мережа приймає стан на вхід і видає одне Q-значення для кожної можливої дії. У проривному дослідженні DeepMind 2015 року на вхід подавалися чотири складені кадри 84×84 у відтінках сірого; згорткова мережа + два повноз'єднані шари видавали 18 Q-значень (одне на кожну комбінацію кнопок Atari).
Два прийоми стабільності, які запровадила DQN
- Буфер відтворення: Зберігаємо минулі переходи в буфері й випадково вибираємо мінібатчі під час навчання. Розриває часові кореляції, що дестабілізують градієнтний спуск.
- Цільова мережа: Друга копія мережі із замороженими вагами, що використовується для обчислення цілі Беллмана. Оновлюється кожні N кроків. Запобігає зміщенню цілі на кожному кроці.
За межами Q-навчання
- Градієнт стратегії (REINFORCE): Безпосередньо оптимізує параметри стратегії, рухаючись за градієнтом очікуваної сумарної винагороди. Працює для неперервних просторів дій.
- Актор-критик (A3C, SAC, PPO): Поєднує мережу стратегії (актора) з мережею цінності (критиком). PPO — це робоча конячка RLHF для донавчання мовних моделей.
- AlphaZero: Використовує пошук методом Монте-Карло по дереву (MCTS), керований нейронною мережею, що оцінює і цінність, і стратегію. Жодних рукотворних ознак — навчилася всьому з гри сама проти себе.
- Модельне RL (MuZero, Dreamer): Агент навчає модель середовища й планує в межах цієї моделі, досягаючи вищої вибіркової ефективності.