Исследовательская группа

Прикладное машинное обучение и глубинное обучение

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

November 12

На данный момент Transformer-based архитектуры стали стандартом де-факто во всевозможных задачах NLP. Однако, применение трансформеров для других типов данных остается довольно ограниченным, либо вовсе отсутствует на практике. Например, для классификации изображений используют механизм внимания (основа любого трансформера) в сочетании со сверточными нейронными сетями, сохраняя при это общую структуру прежней. Авторы данной статьи показывают, что в CNN нет никакой необходимости, поскольку использование чистого трансформера приводит к state-of-the-art решению и, более того, к меньшим вычислительным и временным затратам.

На семинаре мы рассмотрим transformer-based архитектуру для классификации изображений, посмотрим внутрь такой архитектуры и сравним ее с CNN. Помимо этого, обсудим, чем же так хороши трансформеры и поговорим про inductive biases. И самое главное: попробуем ответить на вопрос "неужели CNN скоро будут заменены трансформерами, как это произошло с LSTM?". В качестве бонуса немного обсудим другие задачи за рамками NLP, в которых начали применять трансформеры.

Докладчик: Денис Леонов.

Язык доклада: русский.

Дата и время: 12-е ноября, 18:30-20:00.

Место: https://us02web.zoom.us/j/430117051

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars

Для получения рассылки о семинаре (с паролем от Zoom) - пишите Алексею Шпильману на alexey@shpilman.com.

Материалы