AI Labs
Self-Paced Deep Reinforcement Learning
Одна из проблем алгоритмов глубокого обучения с подкреплением — обучение на сложных, разнообразных выборках, получаемых агентом при взаимодействии со средой. Один из способов облегчить процесс обучения — выстроить его последовательным образом от простых задач к более сложным так, чтобы переход к последующим задачам, во-первых, приближал агента к решению исходной задачи, и, во-вторых, делал сам процесс обучения более быстрым и эффективным.
Curriculum learning (CL) — подход, основная цель которого построить такой план обучения. Несмотря на то, что CL уже показал свою эффективность в решении задач машинного обучения, зачастую сам план составляется вручную или на основе эвристик и концепций, которые теоретически плохо обоснованы.
На семинаре будет рассмотрена статья, авторы которой предлагают подход генерации задач, похожий на self-paсed learning при обучении с учителем и основанный на двух объектах: Value function агента и расстоянии Кульбака-Лейблера между генерируемыми задачами и исходной. Показано, что представленный метод позволяет значительно ускорить и стабилизировать обучение на примере алгоритмов TRPO, PPO и SAC.
Докладчик: Артем Котов.
Язык доклада: русский.
Дата и время: 22 марта, 20:00.
https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09
Meeting ID: 721 102 369
Passcode: 024498