3DIS-FLUX: простое и эффективное создание множества экземпляров с рендерингом DiT
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Авторы: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Аннотация
Растущий спрос на управляемые выходы в генерации текста в изображения привел к значительным достижениям в множественной генерации экземпляров (MIG), позволяя пользователям определять как макеты экземпляров, так и их атрибуты. В настоящее время передовые методы в MIG в основном основаны на адаптерах. Однако эти методы требуют повторного обучения нового адаптера каждый раз, когда выходит более продвинутая модель, что приводит к значительным затратам ресурсов. Была представлена методология под названием Глубинно-управляемый Декомпозированный Синтез Экземпляров (3DIS), которая разделяет MIG на две отдельные фазы: 1) построение сцены на основе глубины и 2) детальная отрисовка с использованием широко предварительно обученных моделей управления глубиной. Метод 3DIS требует обучения адаптера только во время фазы построения сцены, позволяя при этом различным моделям выполнять отрисовку деталей без обучения. Изначально 3DIS сосредотачивался на методах отрисовки, использующих архитектуры U-Net, такие как SD1.5, SD2 и SDXL, не исследуя потенциал недавних моделей на основе DiT, таких как FLUX. В данной статье мы представляем 3DIS-FLUX, расширение рамок 3DIS, которое интегрирует модель FLUX для улучшенных возможностей отрисовки. Конкретно, мы используем модель FLUX.1-Depth-dev для генерации изображений с управлением глубиной карты и вводим детальный рендерер, который манипулирует маской внимания в механизме Совместного Внимания FLUX на основе информации о макете. Этот подход позволяет точно отрисовывать мелкозернистые атрибуты каждого экземпляра. Наши экспериментальные результаты показывают, что 3DIS-FLUX, использующий модель FLUX, превосходит оригинальный метод 3DIS, который использовал SD2 и SDXL, и превосходит текущие передовые методы на основе адаптеров как по производительности, так и по качеству изображения. Страница проекта: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary