Kunnen we afbeeldingen genereren met CoT? Laten we de afbeeldingsgeneratie stap voor stap verifiëren en versterken.

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

January 23, 2025
Auteurs: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI

Samenvatting

Keten-van-Gedachten (CoT) redeneren is uitgebreid onderzocht in grote modellen om complexe begripstaken aan te pakken. Het blijft echter een open vraag of dergelijke strategieën kunnen worden toegepast om beeldgeneratiescenario's te verifiëren en te versterken. In dit artikel bieden we het eerste uitgebreide onderzoek naar het potentieel van CoT redeneren om autoregressieve beeldgeneratie te verbeteren. We richten ons op drie technieken: schalen van testtijd berekening voor verificatie, afstemmen van modelvoorkeuren met Directe Voorkeurs Optimalisatie (DPO), en integratie van deze technieken voor complementaire effecten. Onze resultaten tonen aan dat deze benaderingen effectief kunnen worden aangepast en gecombineerd om de prestaties van beeldgeneratie aanzienlijk te verbeteren. Gezien de cruciale rol van beloningsmodellen in onze bevindingen, stellen we het Potentieel Beoordelings Beloningsmodel (PARM) en PARM++ voor, gespecialiseerd voor autoregressieve beeldgeneratie. PARM beoordeelt adaptief elke generatiestap via een potentieel beoordelingsbenadering, waarbij de sterke punten van bestaande beloningsmodellen worden samengevoegd, en PARM++ introduceert verder een reflectiemechanisme om de gegenereerde onbevredigende afbeelding zelfcorrigerend aan te passen. Door gebruik te maken van onze onderzochte redeneerstrategieën verbeteren we een basismodel, Show-o, om superieure resultaten te behalen, met een significante +24% verbetering op de GenEval benchmark, waarbij Stable Diffusion 3 met +15% wordt overtroffen. We hopen dat ons onderzoek unieke inzichten biedt en een nieuwe weg effent voor het integreren van CoT redeneren met autoregressieve beeldgeneratie. Code en modellen zijn beschikbaar op https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT

Summary

AI-Generated Summary

PDF372January 24, 2025