JetBrains Research — наука, меняющая мир

Использование внешней памяти в обучении с подкреплением

Несмотря на блестящие показатели обучения с подкреплением в конкретных средах, текущие подходы печально известны свойством data-inefficiency. К примеру, для обучения агентов игры в Atari требуется десятки тысяч часов игрового времени, в то время как человеку достаточно нескольких часов взаимодействия со средой для выявления непроигрышной стратегии. В настоящее время для оптимизации алгоритмов предлагаются различные подходы: transfer learning, новые методы исследования среды, иерархическое обучение и др. Одним из возможных решений является попытка реализовать аналог гиппокампового участка мозга у человека - части памяти, ответственной за консолидацию долговременных воспоминаний.

На семинаре будут рассмотрены подходы к реализации агентов с аналогом долговременной памяти, архитектурные решения и полученные результаты.

Докладчик: Игорь Кузнецов.

Язык доклада: русский.

Дата и время: 5-е ноября, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars