Исследовательская группа

Агентные системы и обучение с подкреплением

Adversarially Guided Actor-Critic

March 15

Современные актор-критик методы основаны на двух составляющих: акторе, который определяет политику агента, и критике, который вычисляет значение  value-функции для предложенной актором политики. Несмотря на успешное решение многих задач обучения с подкреплением, актор-критик и его модификации часто сталкиваются с проблемой неэффективного исследования среды. Авторы статьи “Adversarially Guided Actor-Critic” предлагают бороться с задачей балансирования между exploration и exploitation с помощью добавления в модель еще одной нейронной сети -- оппонента (the adversary), задача которого предсказывать действия актора путем минимизации KL-дивергенции между распределениями действий. В то же время в задачу актора теперь входит не только максимизировать награду, но и обыграть оппонента, не позволяя ему правильно угадывать следующие действия.

На семинаре мы разберем структуру предложенной модели и основные формулы, рассмотрим проведенные авторами эксперименты и их результаты в сравнении с другими современными моделями, включающими в себя активное изучение среды.

Докладчик: Надя Денисова.

Язык доклада: русский.

Дата и время: 15 марта, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498