JetBrains Research — наука, меняющая мир

Ограничение действий агента в обучении с подкреплением

Часто в задачах обучения с подкреплением возникает потребность ограничить возможные действия агента. Например, в системах, взаимодействующих с людьми, это ограничения могут быть продиктованы соображениями безопасности.

На семинаре мы рассмотрим статью "Constrained Policy Optimization", авторы которой адаптируют trust region optimization для constrained MDP, гарантируя выполнение ограничений на каждом шаге обучения. Они также приводят теоретические нижние оценки на сходимость policy, которые могут быть полезны и в других алгоритмах RL. Кроме того, авторы предлагают модификации, позволяющие использовать этот подход на практике, и приводят результаты экспериментов на задаче Gather ("собрать яблоки, избегая мины") и других.

Ссылка на статью: https://arxiv.org/abs/1705.10528

Докладчик: Илья Кайсин.

Язык доклада: русский.

Дата и время: 16-е апреля, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars