JetBrains Research — наука, меняющая мир

Reinforcement Learning Upside Down

В классической формулировке задачи обучения с подкреплением агент пытается научиться совершать такие действия, которые бы максимизировали суммарную дисконтированную награду за весь эпизод. Как правило для этого агенту необходимо найти максимум функции суммарной награды по множеству действий в текущем состоянии. Однако недавно появился альтернативный взгляд на постановку задачи обучения с подкреплением, который позволяет агенту не решать задачу максимизации суммарной награды. Такой подход позволяет получить большую эффективность и стабильность агента в некоторых окружениях.

Статьи:
https://arxiv.org/pdf/1912.02875.pdf
https://arxiv.org/pdf/1912.02877.pdf

Докладчик: Олег Свидченко.

Язык доклада: русский.

Дата и время: 3-е февраля, 18:30-20:00.

Место: Таймс, аудитория 404.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars