Агентные системы и обучение с подкреплением
Integrating Demonstrations Into Self-Imitation Learning
Использование демонстраций в обучении с подкреплением часто помогает агенту в решении трудных задач. Однако чрезмерная зависимость от некачественных демонстраций может наоборот помешать обучению и сильно сместить итоговую политику от оптимальной. В своей недавней работе исследователи из команды JetBrains Research предложили новый метод, который позволяет эффективно использовать демонстрации. Данный метод комбинирует через общий Replay Buffer алгоритм Self-Imitation Learning, использующий в обучении прошлый удачный опыт агента, и алгоритмы Imitation Learning, которые выучивают поведение эксперта по его демонстрациям. На предстоящем семинаре мы разберем предложенный алгоритм и посмотрим на полученные результаты.
Докладчик: Пшихачев Георгий.
Язык доклада: русский.
Дата и время: 29 марта, 20:00.
https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09
Meeting ID: 721 102 369
Passcode: 024498