Исследовательская группа

Агентные системы и обучение с подкреплением

Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model и MELD (Meta RL with Latent Dynamics)

December 23

Уважаемые коллеги, 
на семинаре RL снова будет два доклада:

Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

Алгоритмы глубокого обучения с подкреплением могут научиться решать задачи непосредственно на основе необработанных низкоуровневых наблюдений, таких как изображения. Однако на практике такие многомерные пространства вызывают ряд проблем: c одной стороны, трудно напрямую учиться на таких данных, с другой стороны, сложно выделить лежащую в основе задачи информацию, на которой следовало бы обучаться. В результате, стандартные алгоритмы могут быть медленными, чувствительными к гиперпараметрам и неэффективными.

На семинаре мы обсудим статью, авторы которой предлагают эффективный RL алгоритм SLAC. SLAC предоставляет новый подход объединения стохастических 
последовательных моделей и RL в один метод, используя обучение скрытым признакам и последующего решения задачи обучения с подкреплением в выученном скрытом пространстве модели.

Докладчик: Осипов Артем

и

"MELD (Meta RL with Latent Dynamics)"

Обучение с подкреплением идеологически ассоциируется с задачами обучения роботов. Однако, как известно процесс обучения в meta-RL алгоритмах с сенсорным входом (например используя изображение с камеры робота) занимает продолжительное время для достижения достаточного количество симуляций в реальном мире. Техника MELD - meta-RL c динамическим латентным слоем позволяет быстро получать новые модели поведения робота на основе предыдущих результатов обучения и накопленной информации в структуре латентного слоя.

На семинаре я расскажу, как авторы статьи, используя MELD сумели научить реального робота вставлять Ethernet кабель расположенный в новом месте, используя моделирование WindowX и всего 8 часов мета тренировок в реальном мире.

Докладчик: Лавриченко Ольга

Язык докладов: русский.

Дата и время: 23-е декабря, 20:00-21:30.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498