Исследовательская группа
Лаборатория искусственного интеллекта
Использование обучения с подкреплением для непрерывных сред
1 октября
Доклад будет посвящен сравнению трех методов обучения с подкреплением, а именно — DDPG, TRPO и PPO.
Классические алгоритмы обучения с подкреплением (RL), такие как например SARSA, могут быть использованы лишь для ограниченного круга задач. В частности, они работают только в дискретных средах. Для преодоления данного ограничения были разработаны новые решения, основанные на обучение с подкреплением. DDPG, TRPO и PPO являются одними из самых известных методов для реализации RL в непрерывных пространствах.
Будут разобраны основные преимущества каждого из подходов, а также будет проведено попарное сравнение.
Докладчик: Беляков Михаил
Язык доклада: русский.
Дата и время: 1-е октября, 18:30-20:00.
Место: Таймс, аудитория 204.