Исследовательская группа
Агентные системы и обучение с подкреплением
Модификация награды в алгоритмах обучения с подкреплением
March 5
Конечная формулировка задачи обучения с подкреплением включает в себя функцию награды. Зачастую эта функция определяет насколько эффективно будут обучаться те или иные алгоритмы, а так же то, как выглядит оптимальная политика для задачи.
На семинаре мы посмотрим на примеры того, как можно изменять сходимость методов обучения с подкреплением при помощи модификации функции награды различными способами. Так же мы поговорим про основанные на методе потенциалов аддитивные добавки к функции награды, чем они хороши и как их можно использовать при решении задач.
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 5-е марта, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars