Question 1

Що таке Q-навчання?

Accepted Answer

Q-навчання — це безмодельний алгоритм навчання з підкріпленням, який вивчає цінність виконання кожної дії в кожному стані. Він будує таблицю значень Q(s,a) винятково на основі спроб і винагород, без попередньої моделі середовища, і зрештою ці значення вказують на найкращу дію всюди.

Question 2

Що агент намагається зробити тут?

Accepted Answer

Жовтий агент починає у верхньому лівому куті й намагається досягти зеленої цільової клітини, яка дає винагороду плюс 10. Червоні пастки дають мінус 5 і завершують епізод, а кожен крок коштує мінус 0.02, тож агента спонукають знайти найкоротший безпечний шлях.

Question 3

Що робить оновлення Беллмана?

Accepted Answer

Після кожного ходу агент застосовує оновлення Беллмана. Помилка часової різниці — це розрив між винагородою плюс найкращою дисконтованою майбутньою цінністю та поточною оцінкою. Швидкість навчання альфа визначає, яка частка цієї помилки поглинається.

Question 4

Що змінюють повзунки швидкості навчання, дисконтування та дослідження?

Accepted Answer

Швидкість навчання альфа від 0.01 до 1 задає, як швидко значення Q рухаються до нових оцінок; високі значення вчаться швидко, але можуть бути нестабільними. Дисконтування гамма від 0.1 до 0.99 зважує майбутню винагороду, тож значення близько 1 планують далі вперед. Дослідження епсилон від 0 до 1 — це ймовірність вибору випадкової дії замість поточної найкращої.

Question 5

Що таке епсилон-жадібна стратегія?

Accepted Answer

З імовірністю епсилон агент обирає випадкову дію для дослідження, а з імовірністю один мінус епсилон обирає дію з найвищим відомим значенням Q, щоб використати те, що вже вивчив. На цій сторінці епсилон починається зі значення повзунка й спадає на 0.5 відсотка за епізод, тож агент сміливо досліджує спочатку й переходить до використання згодом.

Question 6

Що означають кольори та стрілки на сітці?

Accepted Answer

Яскравість кожної клітини кодує її максимальне значення Q, тож яскравіші клітини цінніші. Стрілки показують напрямок жадібної політики з цієї клітини, щойно її цінність стає додатною. Зелена зірка — це ціль, червоні хрести — пастки, темно-сині клітини — стіни, а жовта крапка — це агент.

Question 7

Чому агент спочатку ніби блукає?

Accepted Answer

На початку кожне значення Q дорівнює нулю, тож агент не уявляє, де ціль, і досліджує майже випадково, особливо за високого епсилон. Коли винагороди поширюються назад через оновлення Беллмана, формується градієнт цінності до цілі, і блукання поступається місцем чіткому, цілеспрямованому шляху.

Question 8

Чи є це фізично або математично точною моделлю?

Accepted Answer

Так, для ідеалізованого випадку, який вона представляє. Доведено, що табличне Q-навчання збігається до оптимальної функції цінності дій у скінченному марковському процесі ухвалення рішень за умови, що кожна пара стан-дія відвідується нескінченно часто й швидкість навчання спадає належним чином. Сітка тут є вірним малим MDP, хоча вона використовує фіксовану кількість кроків, а не формальні графіки спадання.

Question 9

Яка різниця між функцією цінності та політикою?

Accepted Answer

Функція цінності каже, наскільки добрий кожен стан, що показано тут яскравістю клітини за максимальним значенням Q. Політика каже, що робити, що показано жадібними стрілками. Хороша функція цінності робить хорошу політику легкою для зчитування: просто рухайтеся до сусідньої клітини з найвищою цінністю.

Question 10

Де навчання з підкріпленням застосовується в реальному світі?

Accepted Answer

Ті самі принципи рухають ігрові системи, як-от AlphaGo та агенти для Atari, керування й пересування роботів, керування світлофорами та енергією, рекомендаційні рушії й тонке налаштування великих мовних моделей. Сіткові світи на кшталт цього є класичним навчальним середовищем, бо вони роблять карту цінностей і політику легкими для візуалізації.

🤖 Навчання з Підкріпленням — Q-Навчання у Мережевому Світі

Як читати сітку

Фізика

Про Q-навчання у сітковому світі

Поширені запитання