JetBrains Research — наука, меняющая мир

Distributed Transformer-XL

Проблема ограниченной длины контекста, который языковая модель может эффективно использовать, остро стояла при появлении первых архитектур рекуррентных сетей. Её удалось увеличить как с помощью модификаций архитектуры рекуррентных сетей (LSTM и GRU), так и с помощью механизма внимания.

Новая архитектура языковых моделей Transformer хоть и способна более эффективно выучивать зависимости в контексте, имеет серьезное ограничение на его длину. Фактически, модель способна учитывать только те токены, которые помещаются в один батч.

На этом семинаре мы рассмотрим, как можно побороть это ограничение на примере архитектуры Transformer-XL. Предлагаемая авторами модификация позволяет увеличить длину эффективного контекста на 450%.

Стоит упомянуть, что Transformer и его модификации имеют огромные размеры, которые выливаются в крайне долгое обучение. Transformer-XL примечателен тем, что в открытом доступе имеется реализация его распределённого обучения, которое призвано сократить время обучения в сотни раз.

На семинаре мы также рассмотрим особенности распределённого обучения Transformer-XL и научимся использовать лежащую в основе библиотеку ncluster для построения своей распределённой модели. А также обсудим некоторые проблемы, которые могут возникнуть при переходе на распределённое обучение.

Докладчик: Ярослав Соколов.

Язык доклада: русский.

Дата и время: 19-е ноября, 20:00-21:30.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars