Исследовательская группа

Прикладное машинное обучение и глубинное обучение

Мультилейбльная классификация биомедицинских текстов

November 3

Обработка естественного языка (NLP) – одно из наиболее активно развивающихся направлений машинного обучения. Одним из его применений в сфере биомедицины является классификация медицинских текстов по ICD-лейблам (International Classification of Diseases).

Присваивание лейблов вручную – сложная задача, требующая больших временных затрат и повышенного внимания. В то же время она является особенно важной для поддержания баз данных, а также создания единого стандартизованного языка для обмена медицинскими текстами по всему миру.

Авторы статьи «Predicting Multiple ICD-10 Codes from Brazilian-Portuguese Clinical Notes» (2020) ставят своей целью решить эту задачу посредством алгоритмов машинного обучения. В процессе своего исследования они смогли улучшить результаты классификации для открытого англоязычного датасета медицинских документов MIMIC-III, а также впервые провести классификацию на португальских текстах.

На семинаре мы изучим задачу мультилейбльной ICD-классификации медицинских текстов и какие методы машинного обучения подходят для её решения лучше всего.

Докладчик: Надежда Денисова.

Язык доклада: русский.

Дата и время: 3-е ноября, 18:30-20:00.

Место: https://us02web.zoom.us/j/217320533

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с паролем от Zoom) - пишите Алексею Шпильману на alexey@shpilmаn.com.

Материалы