Können wir Bilder mit CoT generieren? Lassen Sie uns den Schritt-für-Schritt-Prozess der Bildgenerierung überprüfen und verstärken.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Autoren: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Zusammenfassung
Die Gedankenkette (Chain-of-Thought, CoT) -Argumentation wurde in großen Modellen ausführlich erforscht, um komplexe Verständnisaufgaben zu bewältigen. Es bleibt jedoch eine offene Frage, ob solche Strategien auf die Überprüfung und Verstärkung von Szenarien zur Bildgenerierung angewendet werden können. In diesem Papier bieten wir die erste umfassende Untersuchung des Potenzials der CoT-Argumentation zur Verbesserung der autoregressiven Bildgenerierung. Wir konzentrieren uns auf drei Techniken: Skalierung der Testzeitberechnung für die Überprüfung, Ausrichtung der Modellpräferenzen mit der Direkten Präferenzoptimierung (Direct Preference Optimization, DPO) und Integration dieser Techniken für ergänzende Effekte. Unsere Ergebnisse zeigen, dass diese Ansätze effektiv angepasst und kombiniert werden können, um die Leistung der Bildgenerierung erheblich zu verbessern. Angesichts der entscheidenden Rolle von Belohnungsmodellen in unseren Ergebnissen schlagen wir das Potential Assessment Reward Model (PARM) und PARM++ vor, die speziell für die autoregressive Bildgenerierung entwickelt wurden. PARM bewertet adaptiv jeden Generierungsschritt durch einen Potentialbewertungsansatz, der die Stärken bestehender Belohnungsmodelle vereint, und PARM++ führt zusätzlich einen Reflexionsmechanismus ein, um das generierte unbefriedigende Bild selbst zu korrigieren. Unter Verwendung unserer untersuchten Argumentationsstrategien verbessern wir ein Basismodell, Show-o, um überlegene Ergebnisse zu erzielen, mit einer signifikanten Verbesserung um +24 % im GenEval-Benchmark, was Stable Diffusion 3 um +15 % übertrifft. Wir hoffen, dass unsere Studie einzigartige Einblicke bietet und einen neuen Weg für die Integration von CoT-Argumentation in die autoregressive Bildgenerierung ebnet. Der Code und die Modelle sind unter https://github.com/ZiyuGuo99/Image-Generation-CoT verfügbar.
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary