3DIS-FLUX: Einfache und effiziente Multi-Instanz-Generierung mit DiT-Rendering.
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Autoren: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Zusammenfassung
Die wachsende Nachfrage nach steuerbaren Ausgaben in der Text-zu-Bild-Erzeugung hat signifikante Fortschritte in der Multi-Instanz-Erzeugung (MIG) vorangetrieben, was es Benutzern ermöglicht, sowohl Instanzlayouts als auch Attribute zu definieren. Derzeit basieren die State-of-the-Art-Methoden in der MIG hauptsächlich auf Adaptern. Diese Methoden erfordern jedoch jedes Mal, wenn ein fortschrittlicheres Modell veröffentlicht wird, das Neutrainieren eines neuen Adapters, was zu erheblichem Ressourcenverbrauch führt. Eine Methodik namens Tiefengetriebene Entkoppelte Instanzensynthese (3DIS) wurde eingeführt, die die MIG in zwei verschiedene Phasen entkoppelt: 1) Tiefenbasierte Szenenkonstruktion und 2) Detailrendering mit weitgehend vorab trainierten Tiefensteuerungsmodellen. Die 3DIS-Methode erfordert das Training des Adapters ausschließlich während der Szenenkonstruktionsphase und ermöglicht es verschiedenen Modellen, training-free Detailrendering durchzuführen. Anfangs konzentrierte sich 3DIS auf Rendering-Techniken, die U-Net-Architekturen wie SD1.5, SD2 und SDXL nutzen, ohne das Potenzial von neueren DiT-basierten Modellen wie FLUX zu erkunden. In diesem Artikel präsentieren wir 3DIS-FLUX, eine Erweiterung des 3DIS-Frameworks, das das FLUX-Modell für verbesserte Rendering-Fähigkeiten integriert. Speziell verwenden wir das FLUX.1-Depth-dev-Modell für die Tiefenkarten-gesteuerte Bildgenerierung und führen einen Detail-Renderer ein, der die Attention Mask im Joint Attention-Mechanismus von FLUX basierend auf Layout-Informationen manipuliert. Dieser Ansatz ermöglicht das präzise Rendern feingranularer Attribute jeder Instanz. Unsere experimentellen Ergebnisse zeigen, dass 3DIS-FLUX, das das FLUX-Modell nutzt, die ursprüngliche 3DIS-Methode, die SD2 und SDXL verwendete, übertrifft und aktuelle State-of-the-Art-Adapter-basierte Methoden sowohl in Bezug auf Leistung als auch Bildqualität übertrifft. Projektseite: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary