Исследовательская группа

Агентные системы и обучение с подкреплением

Self-Paced Deep Reinforcement Learning

March 22

Одна из проблем алгоритмов глубокого обучения с подкреплением — обучение на сложных, разнообразных выборках, получаемых агентом при взаимодействии со средой. Один из способов облегчить процесс обучения — выстроить его последовательным образом от простых задач к более сложным так, чтобы переход к последующим задачам, во-первых, приближал агента к решению исходной задачи, и, во-вторых, делал сам процесс обучения более быстрым и эффективным.

Curriculum learning (CL) — подход, основная цель которого построить такой план обучения. Несмотря на то, что CL уже показал свою эффективность в решении задач машинного обучения, зачастую сам план составляется вручную или на основе эвристик и концепций, которые теоретически плохо обоснованы.

На семинаре будет рассмотрена статья, авторы которой предлагают подход генерации задач, похожий на self-paсed learning при обучении с учителем и основанный на двух объектах: Value function агента и расстоянии Кульбака-Лейблера между генерируемыми задачами и исходной. Показано, что представленный метод позволяет значительно ускорить и стабилизировать обучение на примере алгоритмов TRPO, PPO и SAC.

Докладчик: Артем Котов.

Язык доклада: русский.

Дата и время: 22 марта, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498