Исследовательская группа

Агентные системы и обучение с подкреплением

Replacing rewards with examples

April 19

В классической постановке задачи обучения с подкреплением во время обучения агент руководствуется функцией награды, которая позволяет ему понять, насколько хорошо он умеет решать поставленную задачу. Конструирование такой функции зачастую является достаточно сложной задачей, поскольку требует достаточно больших знаний о предметной области. Альтернативой такому подходу является использование примеров, полученных при помощи экспертов, которые уже умеют решать проблему. На данный момент существует большое количество алгоритмов Imitation Learning, однако их использование накладывает серьезные ограничения на наблюдения, получаемые с помощью эксперта.

Исследователи из OpenAI в своей недавней статье формулируют задачу обучения по данным от экспертов, используя только те состояния среды, в которых задача уже выполнена, а также предлагают алгоритм, способный эффективно решать задачу в данной постановке. Стоит отметить, что такой подход снимает ряд ограничений с данных, получаемых от экспертов, что также будет разобрано на семинаре.

Докладчик: Свидченко Олег.

Язык доклада: русский.

Дата и время: 19 апреля, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498