Лаборатория искусственного интеллекта
Adversarially Guided Actor-Critic
Современные актор-критик методы основаны на двух составляющих: акторе, который определяет политику агента, и критике, который вычисляет значение value-функции для предложенной актором политики. Несмотря на успешное решение многих задач обучения с подкреплением, актор-критик и его модификации часто сталкиваются с проблемой неэффективного исследования среды. Авторы статьи “Adversarially Guided Actor-Critic” предлагают бороться с задачей балансирования между exploration и exploitation с помощью добавления в модель еще одной нейронной сети -- оппонента (the adversary), задача которого предсказывать действия актора путем минимизации KL-дивергенции между распределениями действий. В то же время в задачу актора теперь входит не только максимизировать награду, но и обыграть оппонента, не позволяя ему правильно угадывать следующие действия.
На семинаре мы разберем структуру предложенной модели и основные формулы, рассмотрим проведенные авторами эксперименты и их результаты в сравнении с другими современными моделями, включающими в себя активное изучение среды.
Докладчик: Надя Денисова.
Язык доклада: русский.
Дата и время: 15 марта, 20:00.
https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09
Meeting ID: 721 102 369
Passcode: 024498