Исследовательская группа

Агентные системы и обучение с подкреплением

Reward Propagation Using Graph Convolutional Networks

March 1

Уважаемые коллеги, 
приглашаем Вас посетить семинар "Reward Propagation Using Graph Convolutional Networks"

Один из способов ускорения алгоритмов обучения с подкреплением - изменение функции награды (Reward shaping). В данном направлении хорошо проработана теория: ещё в 1999 году был разработан метод потенциалов, дающий необходимое и достаточное условие на то, что новая функция награды никак не изменит оптимальную политику для среды. У этого подхода есть серьёзный недостаток - в задачах, возникающих на практике, поиск функций-потенциалов по сложности эквивалентен самому обучению агента. Поэтому активно развивается направление обучения с подкреплением, связанное с аппроксимацией функций-потенциалов.

На семинаре мы рассмотрим алгоритм аппроксимации потенциалов с помощью графовых свёрточных сетей (GCN), поговорим про ограничения и преимущества этого подхода, затем обсудим результаты экспериментов на разных средах: от простых табличных (FourRooms) до физически сложных (MuJoCo).

Докладчик: Глеб Енгалыч.

Язык доклада: русский.

Дата и время: 1-е марта, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498