JetBrains Research — наука, меняющая мир

Munchausen Reinforcement Learning

Одной из основных частей многих алгоритмов обучения с подкреплением является бутстрапинг. В частности, большинство алгоритмов использующих TD-error для обучения вместо истинного значение Q-function или Value function используют их существующие приближение.

Авторы статьи Munchausen Reinforcement Learning предлагают использовать для бутстрапинга в алгоритмах RL не только текущее приближение суммарной награды, но и текущую политику агента. Такой подход позволяет значительно улучшить DQN и IQN благодаря незначительной модификации. Кроме того, полученная в результате модификация IQN значительно превосходит широко используемый алгоритм RAINBOW на средах Atari.

На семинаре мы обсудим полученные авторами статьи результаты и разберем предложенную ими модификацию.

Ссылка на статью: https://arxiv.org/pdf/2007.14430.pdf

Докладчик: Олег Свидченко.

Язык доклада: русский.

Дата и время: 16-е сентября, 20:00-21:30.

Место: https://zoom.us/j/721102369

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с паролем от Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.