Інтерактивна симуляція Q-learning у сітковому лабіринті 8×8. Агент отримує нагороди: ціль +10, вогонь −5, стіна −1, крок −0.1. Q-таблиця оновлюється через рівняння Беллмана. Теплова карта відображає максимальне Q-значення.Стрілки стратегії показують жадібну дію. ε-жадібне дослідження убуває з кожним епізодом.