Исследовательская группа

Прикладное машинное обучение и глубокое обучение

DALL·E: Zero-Shot Text-to-Image Generation

April 6

Одной из основных задач связывающих компьютерное зрение и обработку естественного языка является генерация изображений из текстовых описаний (text-to-image generation). Решение данной задачи имеет множество практических применений, а также способствует развитию исследований в области мультимодального обучения. Большинство известных на данный момент text-to-image подходов основаны на генеративно-состязательных сетях, которые показывают хорошие результаты.

На семинаре будет рассмотрена статья "Zero-Shot Text-to-Image Generation", в которой описан новый подход к решению этой задачи, основанный на трансформере, который авторегрессивно моделирует текстовые токены и токены изображения как единый поток данных. Полученную языковую модель авторы назвали DALL·E, это версия GPT-3 с 12 миллиардами параметров, обученная на большом наборе данных, состоящем из пар текст-изображение. Авторы показали, что при наличии достаточного количества данных и вычислительных ресурсов, предложенная модель может конкурировать с предыдущими моделями. Помимо этого авторы заметили, что DALL·E обладает разнообразным набором возможностей, включая правдоподобное комбинирование несвязанных понятий, визуализацию текста и применение преобразований к существующим изображениям.

Язык доклада: русский.

Дата и время: 6-е апреля, 20:00.

https://us02web.zoom.us/j/430117051?pwd=TzdKNGRaUCsyMUZBL1UwWTlsOW8yZz09

Meeting ID: 430 117 051

Passcode: 025987