Исследовательская группа

Агентные системы и обучение с подкреплением

MELD (Meta RL with Latent Dynamics) & Primal Wasserstein Imitation Learning

December 9

Обучение с подкреплением идеологически ассоциируется с задачами обучения роботов. Однако, как известно процесс обучения в meta-RL алгоритмах с сенсорным входом (например используя изображение с камеры робота) занимает продолжительное время для достижения достаточного количество симуляций в реальном мире. Техника MELD - meta-RL c динамическим латентным слоем позволяет быстро получать новые модели поведения робота на основе предыдущих результатов обучения и накопленной информации в структуре латентного слоя.

На семинаре я расскажу, как авторы статьи, используя MELD сумели научить реального робота вставлять Ethernet кабель расположенный в новом месте, используя моделирование WindowX и всего 8 часов мета тренировок в реальном мире.

Докладчик: Лавриченко Ольга

"Primal Wasserstein Imitation Learning"

С помощью обучения с подкреплением успешно решается ряд задач в машинном обучении, особенно в игровой индустрии и робототехнике. Однако, обучение с подкреплением полагается на существование функции-награды, с определением которой в отдельных случая возникают трудности – это препятствует использованию алгоритмов на практике.

Имитационное обучение или обучение через подражание стремится к решению задач в средах, где определить награду явным образом непросто. Стратегия парадигмы заключается в изучении политики через фиксированное число демонстраций поведения экспертом.

На семинаре будут рассмотрены основные аспекты имитационного обучения, а также один из алгоритмов обучения через подражание: Primal Wasserstein Imitation Learning (PWIL), оценка эффективности которого связана с расстоянием Васерштейна между state-action распределениями агента и эксперта.

Докладчик: Дарья Дятлова

Язык докладов: русский.

Дата и время: 9-е декабря, 20:00-21:30.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с ссылкой на Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.