JetBrains Research — наука, меняющая мир

Pre-trained Contextual Embedding of Source Code

Область обработки естественного языка (NLP) активно развивается, каждый год появляются новый архитектуры, которые улучшают метрики на различных задачах. 2019 год не стал исключением в этом плане, архитектура модели BERT стала одной из самой популярных, её стали использовать даже за пределами задач NLP. Одна из причин такой популярности — это подход к тренировке такой модели: сначала она обучается на большом не размечанном наборе данных, а затем дообучается на примерах конкретной задачи. Такой подход к тренировке давно используется в задачах компьютерного зрения, а BERT стал первой архитектурой, где такой подход успешно применили к тексту.


Авторы статьи "Pre-trained Contextual Embedding of Source Code" решили проверить такой подход к обучению модели на исходном коде и показывают, что их модель CuBERT (Code Understanding BERT) хорошо решает поставленные задачи.

На данном семинаре, мы разберём, что из себя представляет BERT, особенности обучения такой модели, а так же, как авторы вышеупомянутой статьи применили данный подход к коду.

Докладчик: Егор Спирин.

Язык доклада: русский.

Дата и время: 19-е февраля, 19:30-21:00.

Место: Таймс, аудитория 405.

Видео с семинаров доступно по ссылке: http://bit.ly/MLJBSeminars