JetBrains Research — наука, меняющая мир

Глубинное обучение с подкреплением на демонстрациях нескольких экспертов

Большим препятствием для использования многих методов обучения с подкреплением является низкая эффективность шагов в среде. Обычно, чтобы получить удовлетворительную политику, алгоритмам нужно огромное количество сэмплов переходов в среде.

Эту проблему можно попытаться решить используя демонстрации экспертов, которые могут послужить советами для агента.

На семинаре мы опишем проблему обучения не от одного эксперта, а от разных экспертов, и как ее можно решить в случае дискретных пространств. Также, мы посмотрим на попытки и успехи использования демонстраций экспертов для алгоритмов глубинного обучения с подкреплением. А именно как современные варианты DQN могут извлекать выгоду из таких данных.

Докладчик: Никита Сазанович.

Язык доклада: русский.

Дата и время: 26-е ноября, 18:30-20:00.

Место: Таймс, аудитория 204.