JetBrains Research — наука, меняющая мир

Big Code != Big Vocabulary: Open-Vocabulary Models for Source Code

Существует множество алгоритмов в SE, использующих свойство "естественности" кода: дополнение кода, рефакторинг, нахождение ошибок, создание комментариев и тд. Эти подходы анализируют большие корпусы кода из тысяч проектов и строят модели машинного обучения, используя техники обработки естественного языка. Главная проблема состоит в том, что словарь, построенный по коду, имеет сильно больший размер, чем в естественном языке. Большой размер словаря и "вне словарные" слова сильно ухудшают качество нейронных языковых моделей и делают их недоступными для масштабирования.

В статье "Big Code != Big Vocabulary: Open-Vocabulary Models for Source Code" Karampatsis et al. исследуется влияние различных методов обработки данных на итоговый словарь и его характеристики. Также авторы представляют свою итоговую модель, сглаживающую пораждаемые большим словарем проблемы, и показывают ее работу на задаче дополнения кода.

Докладчик: Екатерина Кощенко.

Язык доклада: русский.

Дата и время: 18-е марта, 19:30-21:00.

Место: Zoom.

Видео с семинаров доступно по ссылке: http://bit.ly/MLJBSeminars