Исследовательская группа

Методы машинного обучения в области программной инженерии

Language-Agnostic Representation Learning of Source Code from Structure and Context

September 10

Language-Agnostic Representation Learning of Source Code from Structure and Context

🕑  13 сентября 2021 г. (понедельник) 18:00 МСК

🗣  Егор Спирин

📃  Векторизация кода используется во множестве задач, связанных с анализом кода: в задачах суммаризации по векторному представлению фрагмента кода генерируют документацию, в задачах поиска клонов дубликаты ищут по близости векторов, и т.д. Поэтому развитие моделей векторизации (encoder) логично и количество работ на эту тему с каждым годом увеличивается. При этом зачастую авторы пытаются обучить модели сразу под несколько прикладных задач или для нескольких языков программирования. Яркими представителями таких моделей являются CodeBERT или GREAT.

Однако желание использовать несколько языков программирования и иметь модель сразу под несколько задач крайне сложно масштабируется в существующих реалиях. На этом собрании журнального клуба мы рассмотрим статью, в которой авторы пробуют решить эту проблему, объединяя идеи больших текстовых моделей на основе трансформеров и использование структурной информации из AST.

🇷🇺  Язык встречи: Русский

🔗  Ссылка на встречу: https://us02web.zoom.us/j/509624984?pwd=dFhRUlowSWprSVAva0JFQ2NUVzZTdz09

Meeting ID: 509 624 984
Passcode: 016883

📚 https://arxiv.org/pdf/2103.11318.pdf