JetBrains Research — наука, меняющая мир

Стабилизация процесса обучения агента с помощью выделения его функциональных частей

Одной из проблем обучения с подкреплением в настоящее время является то, что вместе с увеличивающейся сложностью агента усложняется и дестабилизируется также и процесс обучения, что мешает эффективно тренировать больших агентов. В 2018 году для решения этой проблемы был предложен альтернативный вариант - разделить агента на составные части, отдельно занимающиеся обработкой входящей информации, предсказанием дальнейших событий и принятием решений, позволив использовать для принятия решений агентов меньшего размера и более простые алгоритмы обучения.


На семинаре мы рассмотрим подход построения модели среды, различные ее реализации, observational dropout, а также обучение агента целиком внутри его собственной модели.

Докладчик: Роман Бельтюков.

Язык доклада: русский.

Дата и время: 3-е декабря, 16:00-17:30.

Место: Таймс, аудитория 410.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars