DreamRenderer: Beherrschung der Multi-Instanz-Attributsteuerung in großskaligen Text-zu-Bild-Modellen
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
March 17, 2025
Autoren: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI
Zusammenfassung
Bildgestützte Generierungsmethoden, wie tiefen- und canny-basierte Ansätze, haben bemerkenswerte Fähigkeiten für die präzise Bildsynthese gezeigt. Allerdings haben bestehende Modelle immer noch Schwierigkeiten, den Inhalt mehrerer Instanzen (oder Regionen) genau zu steuern. Selbst state-of-the-art Modelle wie FLUX und 3DIS stehen vor Herausforderungen, wie z.B. Attributlecks zwischen Instanzen, was die Benutzerkontrolle einschränkt. Um diese Probleme zu lösen, stellen wir DreamRenderer vor, einen trainingsfreien Ansatz, der auf dem FLUX-Modell basiert. DreamRenderer ermöglicht es Benutzern, den Inhalt jeder Instanz über Begrenzungsrahmen oder Masken zu steuern, während gleichzeitig die visuelle Harmonie des Gesamtbildes gewährleistet wird. Wir schlagen zwei Schlüsselinnovationen vor: 1) Bridge Image Tokens for Hard Text Attribute Binding, die replizierte Bild-Tokens als Brücken-Tokens verwenden, um sicherzustellen, dass T5-Text-Einbettungen, die ausschließlich auf Textdaten vortrainiert sind, die richtigen visuellen Attribute für jede Instanz während des Joint Attention binden; 2) Hard Image Attribute Binding, das nur auf entscheidende Schichten angewendet wird. Durch unsere Analyse von FLUX identifizieren wir die kritischen Schichten, die für die Attributdarstellung der Instanzen verantwortlich sind, und wenden Hard Image Attribute Binding nur in diesen Schichten an, während wir in den anderen Schichten eine weiche Bindung verwenden. Dieser Ansatz gewährleistet eine präzise Kontrolle bei gleichzeitiger Wahrung der Bildqualität. Bewertungen auf den COCO-POS- und COCO-MIG-Benchmarks zeigen, dass DreamRenderer die Image Success Ratio im Vergleich zu FLUX um 17,7 % verbessert und die Leistung von Layout-zu-Bild-Modellen wie GLIGEN und 3DIS um bis zu 26,8 % steigert. Projektseite: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned
approaches, have demonstrated remarkable abilities for precise image synthesis.
However, existing models still struggle to accurately control the content of
multiple instances (or regions). Even state-of-the-art models like FLUX and
3DIS face challenges, such as attribute leakage between instances, which limits
user control. To address these issues, we introduce DreamRenderer, a
training-free approach built upon the FLUX model. DreamRenderer enables users
to control the content of each instance via bounding boxes or masks, while
ensuring overall visual harmony. We propose two key innovations: 1) Bridge
Image Tokens for Hard Text Attribute Binding, which uses replicated image
tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely
on text data, bind the correct visual attributes for each instance during Joint
Attention; 2) Hard Image Attribute Binding applied only to vital layers.
Through our analysis of FLUX, we identify the critical layers responsible for
instance attribute rendering and apply Hard Image Attribute Binding only in
these layers, using soft binding in the others. This approach ensures precise
control while preserving image quality. Evaluations on the COCO-POS and
COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success
Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models
like GLIGEN and 3DIS by up to 26.8%. Project Page:
https://limuloo.github.io/DreamRenderer/.Summary
AI-Generated Summary