JetBrains Research — наука, меняющая мир

Learning latent state representation for speeding up exploration

В обучении с подкреплением агенты (а вместе с ними и мы) зачастую сталкиваются с классической дилеммой “exploration vs. exploitation”. Всегда есть выбор: использовать уже выученную успешную стратегию или исследовать среду, в надежде найти стратегию, которая потенциально, но не гарантированно, принесет больше выгоды. Дилемма особенно актуальна в задачах реального мира, где количество возможных действий огромно, а функция награды разреженная.

Агенту важно уметь находить наиболее выгодные для исследования стратегии, т.к. от этого зависит скорость сходимости, но полный перебор невозможен. Поэтому, эффективное исследование среды является одной из важнейших проблем обучения с подкреплением.

Авторы статьи, которую мы обсудим, заметили, что большинство недавних подходов предполагает, что агент заранее ничего не знает о среде/задаче и поэтому не может использовать выученные ранее знания для исследования. Авторы решили подойти к этому с другой стороны, а именно использовать побочные, но релевантные подзадания, чтобы выучить латентное представление состояния, по которому можно было бы эффективно предсказывать награду. Данное представление используется агентом для решения новых задач, уменьшая размерность пространства для исследования.

На семинаре мы подробнее разберем с помощью чего можно выучивать подобные представления состояния и как агенты могут использовать их для более эффективного исследования среды.

Докладчик: Александр Никулин.

Язык доклада: русский.

Дата и время: 18-е ноября, 20:00-21:30.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с ссылкой на Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.