Лаборатория искусственного интеллекта
Многоагентное обучение с динамикой популяций
В обучении с подкреплением одной их ключевых проблем является проблема exploration. Для ее решения было предложено множество способов, которые полагаются на внутреннюю мотивацию. Опираясь на нее, были предложены подходы с индивидуальной любопытностью агентов. Но авторы статьи утверждают, что внутренней мотивацией нельзя объяснить критические адаптации человечества. Рассредоточение людей из Африки произошло скорее из-за внешней мотивации, изменений условий.
В статье предложен многоагентный подход, который дополнен динамикой популяций. Каждая популяция содержит какое-то число особей и управляется одной политикой. Правила же изменения количества особей напрямую следуют из утверждений Томаса Мальтуса: чем больше средний возврат награды у популяции, тем больше в ней особей.
Как итог, авторы показывают преимущества этого подхода для проблемы exploration и для обучения агентов в средах, где есть выгода от специализации видов.
Докладчик: Никита Сазанович.
Язык доклада: русский.
Дата и время: 19-е февраля, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars