Исследовательская группа
Агентные системы и обучение с подкреплением
Обучение с подкреплением с использованием предпочтений человека
April 9
Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.
Докладчик: Михаил Шавкунов.
Язык доклада: русский.
Дата и время: 9-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars