Исследовательская группа

Агентные системы и обучение с подкреплением

"UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers" и "Why does hierarchy (somtimes) works so well in RL?"

June 14

"UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers."

Известные архитектуры в многоагентном обучении с подкреплением не всегда хорошо применимы для решения новых задач. Эти ограничения возникают из-за фиксированных входных и выходных размерностей изначальной модели, что усложняет обучение новой модели с нуля и препятствует использовать transfer learning. В статье «UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers» авторы предлагают новую архитектуру модели, подходящую для задач с различными требованиями к конфигурации объектов и действий.  Авторы используют модель на основе трансформера, который позволяет находить гибкую политику учитывая распределение политик при помощи механизма self-attention. Также данная архитектура способна обрабатывать несколько задач одновременно благодаря разработанной стратегии policy decoupling.

Докладчик: Тихон Воробьев.

"Why does hierarchy (somtimes) works so well in RL?"

Большие успехи были достигнуты в последнее время в области обучения с подкреплением, однако обучение большинства агентов в условиях “сырого” входа - когда состояние представлено картинкой, а не удобной репрезентацией - все еще считается сложной задачей. Наибольшие трудности в условиях работы с таким входом представляют его большая размерность и переобучение на ложных корреляциях. Бороться с ними можно, например, используя representation learning, или с помощью attention подходов, однако предлагавшиеся ранее архитектуры являются плохо масштабируемыми и поэтому их применение ограничено задачами с визуальными входами с низким разрешением. 

На семинаре мы рассмотрим архитектуру Implicit Attention for Pixels, которая является хорошо масштабируемой и работает даже с патчами чрезвычайно малого размера. Прототип данной архитектуры был ранее предложен для трансформеров и оказался крайне эффективен.

Докладчик: Мария Самсикова.

Язык доклада: русский.

Дата и время: 14 июня, 20:00.

https://us02web.zoom.us/j/721102369?pwd=S0lCc0ZjeGlGZSsvMTkzbUVJU1podz09

Meeting ID: 721 102 369

Passcode: 024498