DreamRenderer: Beherrschung der Multi-Instanz-Attributsteuerung in großskaligen Text-zu-Bild-Modellen

Zusammenfassung

Bildgestützte Generierungsmethoden, wie tiefen- und canny-basierte Ansätze, haben bemerkenswerte Fähigkeiten für die präzise Bildsynthese gezeigt. Allerdings haben bestehende Modelle immer noch Schwierigkeiten, den Inhalt mehrerer Instanzen (oder Regionen) genau zu steuern. Selbst state-of-the-art Modelle wie FLUX und 3DIS stehen vor Herausforderungen, wie z.B. Attributlecks zwischen Instanzen, was die Benutzerkontrolle einschränkt. Um diese Probleme zu lösen, stellen wir DreamRenderer vor, einen trainingsfreien Ansatz, der auf dem FLUX-Modell basiert. DreamRenderer ermöglicht es Benutzern, den Inhalt jeder Instanz über Begrenzungsrahmen oder Masken zu steuern, während gleichzeitig die visuelle Harmonie des Gesamtbildes gewährleistet wird. Wir schlagen zwei Schlüsselinnovationen vor: 1) Bridge Image Tokens for Hard Text Attribute Binding, die replizierte Bild-Tokens als Brücken-Tokens verwenden, um sicherzustellen, dass T5-Text-Einbettungen, die ausschließlich auf Textdaten vortrainiert sind, die richtigen visuellen Attribute für jede Instanz während des Joint Attention binden; 2) Hard Image Attribute Binding, das nur auf entscheidende Schichten angewendet wird. Durch unsere Analyse von FLUX identifizieren wir die kritischen Schichten, die für die Attributdarstellung der Instanzen verantwortlich sind, und wenden Hard Image Attribute Binding nur in diesen Schichten an, während wir in den anderen Schichten eine weiche Bindung verwenden. Dieser Ansatz gewährleistet eine präzise Kontrolle bei gleichzeitiger Wahrung der Bildqualität. Bewertungen auf den COCO-POS- und COCO-MIG-Benchmarks zeigen, dass DreamRenderer die Image Success Ratio im Vergleich zu FLUX um 17,7 % verbessert und die Leistung von Layout-zu-Bild-Modellen wie GLIGEN und 3DIS um bis zu 26,8 % steigert. Projektseite: https://limuloo.github.io/DreamRenderer/.

English

Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.

DreamRenderer: Beherrschung der Multi-Instanz-Attributsteuerung in großskaligen Text-zu-Bild-Modellen

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Zusammenfassung

Summary

Support

Support