Исследовательская группа

Агентные системы и обучение с подкреплением

Integrating Demonstrations Into Self-Imitation Learning

March 29

Использование демонстраций в обучении с подкреплением часто помогает агенту в решении трудных задач. Однако чрезмерная зависимость от некачественных демонстраций может наоборот помешать обучению и сильно сместить итоговую политику от оптимальной. В своей недавней работе исследователи из команды JetBrains Research предложили новый метод, который позволяет эффективно использовать демонстрации. Данный метод комбинирует через общий Replay Buffer алгоритм Self-Imitation Learning, использующий в обучении прошлый удачный опыт агента, и алгоритмы Imitation Learning, которые выучивают поведение эксперта по его демонстрациям. На предстоящем семинаре мы разберем предложенный алгоритм и посмотрим на полученные результаты.

Докладчик: Пшихачев Георгий.

Язык доклада: русский.

Дата и время: 29 марта, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498