3DIS-FLUX: generazione multi-istanza semplice ed efficiente con rendering DiT
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Autori: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Abstract
La crescente domanda di output controllabili nella generazione di testo-immagine ha portato a significativi progressi nella generazione multi-istanza (MIG), consentendo agli utenti di definire sia il layout delle istanze che gli attributi. Attualmente, i metodi all'avanguardia in MIG sono principalmente basati su adattatori. Tuttavia, questi metodi richiedono il riallenamento di un nuovo adattatore ogni volta che viene rilasciato un modello più avanzato, comportando un significativo consumo di risorse. È stata introdotta una metodologia chiamata Sintesi di Istanze Decoppiata Guidata dalla Profondità (3DIS), che decoppia MIG in due fasi distinte: 1) costruzione della scena basata sulla profondità e 2) rendering dei dettagli con modelli di controllo della profondità ampiamente pre-allenati. Il metodo 3DIS richiede il training dell'adattatore esclusivamente durante la fase di costruzione della scena, consentendo a vari modelli di eseguire il rendering dei dettagli senza necessità di training. Inizialmente, 3DIS si è concentrato su tecniche di rendering utilizzando architetture U-Net come SD1.5, SD2 e SDXL, senza esplorare il potenziale dei recenti modelli basati su DiT come FLUX. In questo articolo, presentiamo 3DIS-FLUX, un'estensione del framework 3DIS che integra il modello FLUX per capacità di rendering potenziate. Nello specifico, impieghiamo il modello FLUX.1-Depth-dev per la generazione di immagini controllate dalla mappa di profondità e introduciamo un renderer di dettagli che manipola la Maschera di Attenzione nel meccanismo di Attenzione Condivisa di FLUX in base alle informazioni sul layout. Questo approccio consente il rendering preciso degli attributi dettagliati di ciascuna istanza. I nostri risultati sperimentali indicano che 3DIS-FLUX, sfruttando il modello FLUX, supera il metodo originale 3DIS, che utilizzava SD2 e SDXL, e supera i metodi all'avanguardia basati su adattatori attuali sia in termini di prestazioni che di qualità delle immagini. Pagina del Progetto: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary