Исследовательская группа

Агентные системы и обучение с подкреплением

Provably Efficient Maximum Entropy Exploration

December 16

Уважаемые коллеги, 
на семинаре RL снова будет два доклада:


‘‘Provably Efficient Maximum Entropy Exploration’’

Чему может обучиться агент в отсутствии внешнего сигнала вознаграждения? Этот вопрос кажется парадоксальным, учитывая, что в основе RL - парадигма о вознаграждении. Тем не менее, такой подход может в каком-то смысле ограничивать способность агента изучать среду. Новый подход: стратегия, максимизирующая энтропию и сподвигающая агента на исследование среды. Однако, в распространненых на практике задачах RL, располагаемые данные делают поиск такой стратегии задачей невыпуклой оптимизации, которая требует больших вычислений. 

На семинаре будет рассмотрено решение данной проблемы, предложенное авторами статьи. Ключевой особенностью этого решения является применение метода условного градиента (Frank-Wolfe algorithm), который использует ‘‘an approximate MDP solver’’. Также, будут рассмотрены приведенные в статье результаты применения данного метода в экспериментах по решению задач RL.

Докладчик: Галимзянов Дмитрий

"Differential Cross Entropy Model"

Оптимизационные алгоритмы играют важную роль во всех разделах машинного обучения. В зависимости от дополнительных свойств, которыми обладает целевая функция, строятся алгоритмы, учитывающие данную специфику. Например, относительно несложно оптимизировать выпуклую непрерывную функцию.  Однако на практике часто приходится иметь дело с непрерывными функциями, не являющимися выпуклыми.  Один из алгоритмов, позволяющих оптимизировать такие функции – CEM (Cross Entropy Method) – упоминался еще в статьях девяностых годов. Тем не менее, с различными модификациями он используется до сих пор. Существенный недостаток этого алгоритма состоит в том, что если целевая функция зависит от параметра, то решение оптимизационной задачи не будет дифференцируемо по этому параметру. Зачем может понадобится дифференцируемость? Например, если наша функция описывает predictive model (нейронную сеть), а параметр – веса модели.

На семинаре мы обсудим статью, авторы которой, используя результаты и подходы последних лет, строят дифференцируемый вариант CEM - DCEM (Differential Cross Entropy Model), который позволяет встроить CEM в end-to-end learning pipeline. Мы обсудим принцип работы DCEM, а также посмотрим на применение представленного алгоритма в задачах energy-based structured prediction и non-convex continuous control и сравним результаты его работы с градиентным спуском.

Докладчик: Михайлов Илья


Язык докладов: русский.

Дата и время: 16-е декабря, 20:00-21:30.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498

Подробнее об этом и других мероприятиях на сайте research.jetbrains.org.