Исследовательская группа

Агентные системы и обучение с подкреплением

Synthetic Returns for Long-Term Credit Assignment

April 5

Большинство известных model free алгоритмов в RL используют в обучении Temporal Difference Learning, в котором каждому действию присваивается вес пропорциональный кумулятивной награде, которая была получена после совершения этого действия. Тем не менее, у такого подхода есть недостатки. TD-learning не предлагает никакого механизма пропуска несвязанных событий, которые случаются между действиями и последующими вознаграждениями. Это создает непредсказуемый рост дисперсии в ожидаемой кумулятивной награде, что не позволяет моделям точно выучивать value function.

На семинаре разберем подход предложенный исследователями из Deepmind, в котором удалось успешно научить агента строить ассоциации между состояниями и сколь угодно отдаленными наградами. Исследователи показали, что IMPALA с использованием подобного подхода показывает state of the art в средах, где обычный TD-learning терпит неудачу.

Докладчик: Никулин Александр.

Язык доклада: русский.

Дата и время: 5 апреля, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498