Агентные системы и обучение с подкреплением
Munchausen Reinforcement Learning
Одной из основных частей многих алгоритмов обучения с подкреплением является бутстрапинг. В частности, большинство алгоритмов использующих TD-error для обучения вместо истинного значение Q-function или Value function используют их существующие приближение.
Авторы статьи Munchausen Reinforcement Learning предлагают использовать для бутстрапинга в алгоритмах RL не только текущее приближение суммарной награды, но и текущую политику агента. Такой подход позволяет значительно улучшить DQN и IQN благодаря незначительной модификации. Кроме того, полученная в результате модификация IQN значительно превосходит широко используемый алгоритм RAINBOW на средах Atari.
На семинаре мы обсудим полученные авторами статьи результаты и разберем предложенную ими модификацию.
Ссылка на статью: https://arxiv.org/pdf/2007.14430.pdf
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 16-е сентября, 20:00-21:30.
Место: https://zoom.us/j/721102369
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Для получения рассылки о семинаре (с паролем от Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.