JetBrains Research — наука, меняющая мир

Многоагентное обучение с динамикой популяций

В обучении с подкреплением одной их ключевых проблем является проблема exploration. Для ее решения было предложено множество способов, которые полагаются на внутреннюю мотивацию. Опираясь на нее, были предложены подходы с индивидуальной любопытностью агентов. Но авторы статьи утверждают, что внутренней мотивацией нельзя объяснить критические адаптации человечества. Рассредоточение людей из Африки произошло скорее из-за внешней мотивации, изменений условий.

В статье предложен многоагентный подход, который дополнен динамикой популяций. Каждая популяция содержит какое-то число особей и управляется одной политикой. Правила же изменения количества особей напрямую следуют из утверждений Томаса Мальтуса: чем больше средний возврат награды у популяции, тем больше в ней особей.

Как итог, авторы показывают преимущества этого подхода для проблемы exploration и для обучения агентов в средах, где есть выгода от специализации видов.

Докладчик: Никита Сазанович.

Язык доклада: русский.

Дата и время: 19-е февраля, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars