ChatPaper.aiChatPaper

Мультимодальное согласование представлений для генерации изображений: Перекрестное управление текстом и изображением проще, чем кажется

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

February 27, 2025
Авторы: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI

Аннотация

В области передовой генерации изображений на основе текста наблюдается появление унифицированных фреймворков, которые интегрируют мощные текстовые кодировщики, такие как CLIP и T5, с архитектурами Diffusion Transformer. Хотя предпринимались попытки управлять выходными изображениями с помощью дополнительных условий, таких как карта границ (canny) и карта глубины, все еще отсутствует комплексный фреймворк для произвольного чередующегося управления текстом и изображением. Этот пробел особенно заметен при попытке объединить концепции или визуальные элементы из нескольких изображений в процессе генерации. Чтобы устранить этот пробел, мы провели предварительные эксперименты, показавшие, что крупные мультимодальные модели (LMM) предоставляют эффективное общее пространство представлений, где изображение и текст могут быть хорошо согласованы для использования в качестве условия для внешних диффузионных моделей. На основе этого открытия мы предлагаем Dream Engine — эффективный и унифицированный фреймворк, предназначенный для произвольного чередующегося управления текстом и изображением в моделях генерации изображений. Опираясь на мощные модели генерации изображений на основе текста, такие как SD3.5, мы заменяем оригинальные текстовые кодировщики, включая универсальные мультимодальные кодировщики информации, такие как QwenVL. Наш подход использует двухэтапную парадигму обучения, состоящую из совместного согласования текста и изображения и настройки мультимодальных чередующихся инструкций. Наши эксперименты демонстрируют эффективность этого метода обучения, достигая общего балла 0.69 на бенчмарке GenEval и соответствуя производительности передовых моделей генерации изображений на основе текста, таких как SD3.5 и FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

Summary

AI-Generated Summary

PDF263February 28, 2025