JetBrains Research — наука, меняющая мир

T5: Text-to-Text Transfer Trasformer

В задачах обработки естественного языка стандартным подходом является тот, при котором сначала предобучают языковую модель, а затем эту модель дообучают на целевой задаче. Одной из популярных языковых моделей является трансформер. Архитектура оригинального трансформера постоянно модифицируется и улучшается. Несмотря на разнообразие моделей, процесс их сравнения не стандартизирован. Сложности в сравнении возникают из-за отличий в процессах обучения, целевых функциях и в декодировании предсказаний. Получается, что сравнивать млдели, которые были дообучены на разных задачах, в текущем формате некорректно.


На этом семинаре мы рассмотрим унифицированный фреймворк, который сводит задачи обработки естественного языка к text-to-text (Text-to-Text Transfer Learning). Модель (Text-to-Text Transfer Transformer) получает на вход текст с префиксом задачи и генерирует текст с предсказанием. Авторы статьи тестируют подход на 24 задачах: от абстрактивной суммаризации до оценки семантической схожести текстов. Для 17 из 24 из них модель выдает state-of-the-art результаты. Предложенный подход позволяет использовать одну модель для решения нескольких задач одновременно.

Докладчик: Анна Батаева.

Язык доклада: русский.

Дата и время: 3-е декабря, 20:00-21:30.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars