Исследовательская группа

Методы машинного обучения в области программной инженерии

Pre-trained Contextual Embedding of Source Code

February 19

Область обработки естественного языка (NLP) активно развивается, каждый год появляются новый архитектуры, которые улучшают метрики на различных задачах. 2019 год не стал исключением в этом плане, архитектура модели BERT стала одной из самой популярных, её стали использовать даже за пределами задач NLP. Одна из причин такой популярности — это подход к тренировке такой модели: сначала она обучается на большом не размечанном наборе данных, а затем дообучается на примерах конкретной задачи. Такой подход к тренировке давно используется в задачах компьютерного зрения, а BERT стал первой архитектурой, где такой подход успешно применили к тексту.


Авторы статьи "Pre-trained Contextual Embedding of Source Code" решили проверить такой подход к обучению модели на исходном коде и показывают, что их модель CuBERT (Code Understanding BERT) хорошо решает поставленные задачи.

На данном семинаре, мы разберём, что из себя представляет BERT, особенности обучения такой модели, а так же, как авторы вышеупомянутой статьи применили данный подход к коду.

Докладчик: Егор Спирин.

Язык доклада: русский.

Дата и время: 19-е февраля, 19:30-21:00.

Место: Таймс, аудитория 405.

Видео с семинаров доступно по ссылке: http://bit.ly/MLJBSeminars