JetBrains Research — наука, меняющая мир

Модификация награды в алгоритмах обучения с подкреплением

Конечная формулировка задачи обучения с подкреплением включает в себя функцию награды. Зачастую эта функция определяет насколько эффективно будут обучаться те или иные алгоритмы, а так же то, как выглядит оптимальная политика для задачи.

На семинаре мы посмотрим на примеры того, как можно изменять сходимость методов обучения с подкреплением при помощи модификации функции награды различными способами. Так же мы поговорим про основанные на методе потенциалов аддитивные добавки к функции награды, чем они хороши и как их можно использовать при решении задач.

Докладчик: Олег Свидченко.

Язык доклада: русский.

Дата и время: 5-е марта, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars