Исследовательская группа

Прикладное машинное обучение и глубокое обучение

Token-to-token ViT: Training Vision Transformers from Scratch on ImageNet

March 9

Уважаемые коллеги, приглашаем Вас посетить семинар "Token-to-token ViT: Training Vision Transformers from Scratch on ImageNet".

В последнее время исследуется применение трансформеров в различных задачах, связанных с обработкой изображений. В отличии от обработки естественного языка, где трансформеры стали стандартным решением для многих задач, применение их к изображениям лимитировано. Большинство моделей просто используют механизм attention совместно со сверхточными сетями, сохраняя уже известные архитектуры. Однако в прошлом году вышла работа, описывающая первую архитектуру для распознавания объектов, основывающуюся только на трансформерах (ViT). И хотя эта модель показывает сравнимые результаты со state-of-the-art сетями, она обладает некоторыми недостатками, такими как большой размер модели и необходимость предобучения на огромных датасетах.

На семинаре мы рассмотрим модель T2T-ViT, которая с помощью архитектурных решений борется с проблемами предыдущей модели и показывает результаты не хуже, чем сверхточные сети при соизмеримых размерах.

Докладчик: Фарид Багиров.

Язык доклада: русский.

Дата и время: 9-е марта, 20:00.

https://us02web.zoom.us/j/430117051?pwd=TzdKNGRaUCsyMUZBL1UwWTlsOW8yZz09

Meeting ID: 430 117 051

Passcode: 025987