Агентные системы и обучение с подкреплением
Использование внешней памяти в обучении с подкреплением
Несмотря на блестящие показатели обучения с подкреплением в конкретных средах, текущие подходы печально известны свойством data-inefficiency. К примеру, для обучения агентов игры в Atari требуется десятки тысяч часов игрового времени, в то время как человеку достаточно нескольких часов взаимодействия со средой для выявления непроигрышной стратегии. В настоящее время для оптимизации алгоритмов предлагаются различные подходы: transfer learning, новые методы исследования среды, иерархическое обучение и др. Одним из возможных решений является попытка реализовать аналог гиппокампового участка мозга у человека - части памяти, ответственной за консолидацию долговременных воспоминаний.
На семинаре будут рассмотрены подходы к реализации агентов с аналогом долговременной памяти, архитектурные решения и полученные результаты.
Докладчик: Игорь Кузнецов.
Язык доклада: русский.
Дата и время: 5-е ноября, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars