Исследовательская группа

Методы машинного обучения в области программной инженерии

​Поиск дубликатов кода в программных проектах

October 3

Поиск дубликатов кода в программных проектах является сложной задачей, особенно если поиск ведётся в объёмной кодовой базе. В докладе будет рассмотрена статья, авторам которой удалось построить хорошо масштабирующемое решение и оформить его в виде инструмента SourcererCC.

Мы рассмотрим используемые в инструменте алгоритмы, эвристики, а также проведённые авторами эксперименты по замеру точности и времени работы.

Также будет рассмотрена вторая статья этого же коллектива: большое исследование 4.5 миллионов проектов с GitHub, содержащих в себе 428 миллионов файлов на Java, C++, Python и JavaScript. При помощи инструмента SourcererCC авторы проанализировали заимствование кода в этих проектах и обнаружили, что порядка 70% кода в них -- это заимствованный код.

Докладчики: Мария Елисеева.

Язык доклада: русский.

Дата и время: 3-е октября, 20:00-21:30.

Место: Таймс, 204.

Материалы