Исследовательская группа

Агентные системы и обучение с подкреплением

Обучение с подкреплением с использованием предпочтений человека

9 апреля 2019

Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.

Докладчик: Михаил Шавкунов.

Язык доклада: русский.

Дата и время: 9-е апреля, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Дополнительно