Лаборатория искусственного интеллекта
Distributed Transformer-XL
Проблема ограниченной длины контекста, который языковая модель может эффективно использовать, остро стояла при появлении первых архитектур рекуррентных сетей. Её удалось увеличить как с помощью модификаций архитектуры рекуррентных сетей (LSTM и GRU), так и с помощью механизма внимания.
Новая архитектура языковых моделей Transformer хоть и способна более эффективно выучивать зависимости в контексте, имеет серьезное ограничение на его длину. Фактически, модель способна учитывать только те токены, которые помещаются в один батч.
На этом семинаре мы рассмотрим, как можно побороть это ограничение на примере архитектуры Transformer-XL. Предлагаемая авторами модификация позволяет увеличить длину эффективного контекста на 450%.
Стоит упомянуть, что Transformer и его модификации имеют огромные размеры, которые выливаются в крайне долгое обучение. Transformer-XL примечателен тем, что в открытом доступе имеется реализация его распределённого обучения, которое призвано сократить время обучения в сотни раз.
На семинаре мы также рассмотрим особенности распределённого обучения Transformer-XL и научимся использовать лежащую в основе библиотеку ncluster для построения своей распределённой модели. А также обсудим некоторые проблемы, которые могут возникнуть при переходе на распределённое обучение.
Докладчик: Ярослав Соколов.
Язык доклада: русский.
Дата и время: 19-е ноября, 20:00-21:30.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars