JetBrains Research — наука, меняющая мир

Knowledge Distillation for BERT

Современные языковые модели становятся всё глубже и сложнее, в них насчитываются миллионы параметров (BERT — 340, GPT-2 — 1500, ELMo — 94), что плохо сказывается на времени и стоимости обучения, а также на внедрение их в смартфоны, edge-устройства и т.п. Поэтому возникают задачи по оптимизации таких моделей, с целью более широкого их применения. С другой стороны, есть работы, которые утверждают, что BERT содержит излишне много параметров, а значит его можно уменьшить без потери качества.



На этом семинаре мы разберём несколько статей, в которых авторы применяют идею дистилляции знаний к известной архитектуре BERT и получают модели со сравнимым качеством, но с гораздо меньшим количеством параметров. Посмотрим на такие работы:
1. DistilBERT, где авторы представляюь предобученную модель для языкового представления, чтобы в дальнейшем использовать её в любой задаче;
2. TiniBERT, где используется авторская функция потерь для дистилляции трансформеров;
3. Использование BiLSTM, в качестве "студента", чтобы показать, что даже простая архитектура может передать глубину сложной модели.

Докладчик: Егор Спирин.

Язык доклада: русский.

Дата и время: 12-е ноября, 20:00-21:30.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars