Лаборатория искусственного интеллекта
Reward Propagation Using Graph Convolutional Networks
Уважаемые коллеги,
приглашаем Вас посетить семинар "Reward Propagation Using Graph Convolutional Networks"
Один из способов ускорения алгоритмов обучения с подкреплением - изменение функции награды (Reward shaping). В данном направлении хорошо проработана теория: ещё в 1999 году был разработан метод потенциалов, дающий необходимое и достаточное условие на то, что новая функция награды никак не изменит оптимальную политику для среды. У этого подхода есть серьёзный недостаток - в задачах, возникающих на практике, поиск функций-потенциалов по сложности эквивалентен самому обучению агента. Поэтому активно развивается направление обучения с подкреплением, связанное с аппроксимацией функций-потенциалов.
На семинаре мы рассмотрим алгоритм аппроксимации потенциалов с помощью графовых свёрточных сетей (GCN), поговорим про ограничения и преимущества этого подхода, затем обсудим результаты экспериментов на разных средах: от простых табличных (FourRooms) до физически сложных (MuJoCo).
Докладчик: Глеб Енгалыч.
Язык доклада: русский.
Дата и время: 1-е марта, 20:00.
https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09
Meeting ID: 721 102 369
Passcode: 024498