Исследовательская группа

Агентные системы и обучение с подкреплением

Использование обучения с подкреплением для непрерывных сред

October 1

Доклад будет посвящен сравнению трех методов обучения с подкреплением, а именно — DDPG, TRPO и PPO.

Классические алгоритмы обучения с подкреплением (RL), такие как например SARSA, могут быть использованы лишь для ограниченного круга задач. В частности, они работают только в дискретных средах. Для преодоления данного ограничения были разработаны новые решения, основанные на обучение с подкреплением. DDPG, TRPO и PPO являются одними из самых известных методов для реализации RL в непрерывных пространствах.

Будут разобраны основные преимущества каждого из подходов, а также будет проведено попарное сравнение.

Докладчик: Беляков Михаил

Язык доклада: русский.

Дата и время: 1-е октября, 18:30-20:00.

Место: Таймс, аудитория 204.

Материалы