ChatPaper.aiChatPaper

Reflect-DiT: Inferenzzeit-Skalierung für Text-zu-Bild-Diffusionstransformatoren durch In-Kontext-Reflexion

Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection

March 15, 2025
Autoren: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Arsh Koneru, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

Zusammenfassung

Der vorherrschende Ansatz zur Weiterentwicklung der Text-zu-Bild-Generierung war das Skalieren während des Trainings, bei dem größere Modelle mit mehr Daten und unter Einsatz größerer Rechenressourcen trainiert werden. Obwohl dieser Ansatz effektiv ist, ist er rechenintensiv, was zu einem wachsenden Interesse am Skalieren während der Inferenz führt, um die Leistung zu verbessern. Derzeit beschränkt sich das Skalieren während der Inferenz für Text-zu-Bild-Diffusionsmodelle weitgehend auf das Best-of-N-Sampling, bei dem mehrere Bilder pro Prompt generiert werden und ein Auswahlmodell die beste Ausgabe auswählt. Inspiriert durch den jüngsten Erfolg von Reasoning-Modellen wie DeepSeek-R1 im Sprachbereich, führen wir eine Alternative zum naiven Best-of-N-Sampling ein, indem wir Text-zu-Bild-Diffusion-Transformer mit Fähigkeiten zur In-Kontext-Reflexion ausstatten. Wir schlagen Reflect-DiT vor, eine Methode, die es Diffusion-Transformern ermöglicht, ihre Generierungen mithilfe von In-Kontext-Beispielen zuvor generierter Bilder sowie textuellen Rückmeldungen, die notwendige Verbesserungen beschreiben, zu verfeinern. Anstatt sich passiv auf zufälliges Sampling zu verlassen und auf ein besseres Ergebnis in einer zukünftigen Generation zu hoffen, passt Reflect-DiT seine Generierungen explizit an, um spezifische Aspekte zu verbessern, die einer Optimierung bedürfen. Experimentelle Ergebnisse zeigen, dass Reflect-DiT die Leistung auf dem GenEval-Benchmark (+0,19) verbessert, wobei SANA-1.0-1.6B als Basismodell verwendet wird. Zudem erreicht es einen neuen State-of-the-art-Score von 0,81 auf GenEval, während nur 20 Samples pro Prompt generiert werden, und übertrifft damit den bisherigen Bestwert von 0,80, der mit einem deutlich größeren Modell (SANA-1.5-4.8B) und 2048 Samples unter dem Best-of-N-Ansatz erzielt wurde.
English
The predominant approach to advancing text-to-image generation has been training-time scaling, where larger models are trained on more data using greater computational resources. While effective, this approach is computationally expensive, leading to growing interest in inference-time scaling to improve performance. Currently, inference-time scaling for text-to-image diffusion models is largely limited to best-of-N sampling, where multiple images are generated per prompt and a selection model chooses the best output. Inspired by the recent success of reasoning models like DeepSeek-R1 in the language domain, we introduce an alternative to naive best-of-N sampling by equipping text-to-image Diffusion Transformers with in-context reflection capabilities. We propose Reflect-DiT, a method that enables Diffusion Transformers to refine their generations using in-context examples of previously generated images alongside textual feedback describing necessary improvements. Instead of passively relying on random sampling and hoping for a better result in a future generation, Reflect-DiT explicitly tailors its generations to address specific aspects requiring enhancement. Experimental results demonstrate that Reflect-DiT improves performance on the GenEval benchmark (+0.19) using SANA-1.0-1.6B as a base model. Additionally, it achieves a new state-of-the-art score of 0.81 on GenEval while generating only 20 samples per prompt, surpassing the previous best score of 0.80, which was obtained using a significantly larger model (SANA-1.5-4.8B) with 2048 samples under the best-of-N approach.

Summary

AI-Generated Summary

PDF92March 19, 2025