Исследовательская группа

Агентные системы и обучение с подкреплением

Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization

February 15

Во многих сложных средах агенту трудно самостоятельно выучить оптимальную политику. Индивидуальное обучение часто может быть неэффективным, дорогостоящим или даже небезопасным (автопилоты, роботы). Для решения этой проблемы можно воспользоваться Imitation Learning, который делится на Behavioral Cloning и Inverse Reinforcement Learning (IRL). Данный подход заключается в обучении агента с помощью набора демонстраций эксперта. 

IRL направлен на изучение функции вознаграждения, при которой политика эксперта является оптимальной. В последнее время для изучения функции вознаграждения используется состязательное обучение. Такой подход называется Adversarial Imitation Learning (AIL).

На семинаре мы поговорим про AIL, разберем статью Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization и предложенный в ней алгоритм, основанный на состязательном обучении.

Докладчик: Алина Плешкова.

Язык доклада: русский.

Дата и время: 15-е февраля, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498