Исследовательская группа

Агентные системы и обучение с подкреплением

Phasic Policy Gradient

30 сентября 2020

В традиционных Actor-Critic алгоритмах обычно одновременно обучают две нейросети. Одна нейросеть приближает политику, а другая - value-функцию. В связи с этим перед разработчиком алгоритма возникает вопрос: нужно ли делить параметры между этими двумя нейросетями? С одной стороны, деление параметров может позволить одной сети использовать признаки, выученные другой сетью. С другой стороны, у такого подхода есть как минимум два недостатка. Во-первых, обе сети приходится обучать на одних и тех же данных и с одним и тем же уровнем sample-reuse. Во-вторых, в таком случае оптимизация одной целевой функции может негативно сказаться на оптимизации другой.

В недавней статье исследователи из команды OpenAI предложили решение, которое позволяет одновременно как использовать преимущества, так и обходить недостатки деления весов нейросетями. На этом семинаре мы обсудим предложенное решение и разберем полученные результаты.

Ссылка на статью: https://arxiv.org/abs/2009.04416

Докладчик: Георгий Пшихачев.

Язык доклада: русский.

Дата и время: 30-е сентября, 20:00-21:30.

Место: https://us02web.zoom.us/j/721102369

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с паролем от Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.