Исследовательская группа

Методы машинного обучения в области программной инженерии

Reassessing Automatic Evaluation Metrics for Code Summarization Tasks

August 2

Статья (https://sarahfakhoury.com/2021-FSE-Summarization-Metrics.pdf) посвящена сравнению эффективности метрик для автоматической оценки качества моделей, которые суммаризуют код в документацию. Помимо стандартных BLEU, METEOR и ROUGE авторы также рассматривают BERTScore (метрику, основанную на претренированных эмбеддингах BERT'а) и chrF (метрику, которая считает F-score на n-граммах символов, а не токенов). Авторы изучили, насколько значительной должна быть разница в оценках моделей на уровне корпуса, чтобы мнение асессоров о сравнительном качестве моделей совпадало с мнением метрик. Также авторы изучили, насколько можно доверять оценкам метрик для отдельных примеров.

В рамках семинара мы уделим большое внимание статистическим методам и подходам, которыми пользовались авторы, так как они отличаются от часто используемых в ML4SE статьях. При этом выбор подходов мотивируется опытом и результатами исследований в области машинного перевода, где зачастую уделяется большое внимание границам применимости тех или иных статистических подходов.