CoT를 사용하여 이미지를 생성할 수 있을까? 이미지 생성 과정을 단계별로 확인하고 강화해 볼까요?
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
저자: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
초록
Chain-of-Thought (CoT) 추론은 복잡한 이해 작업에 대처하기 위해 대규모 모델에서 철저히 탐구되어 왔습니다. 그러나 이미지 생성 시나리오를 검증하고 강화하는 데 이러한 전략이 적용될 수 있는지는 여전히 미해결된 문제입니다. 본 논문에서는 CoT 추론의 잠재력을 자동 회귀 이미지 생성을 향상시키기 위해 첫 번째로 철저히 조사합니다. 우리는 세 가지 기술에 초점을 맞춥니다: 검증을 위한 시험 시간 계산 확장, 모델 선호도를 직접 선호도 최적화(DPO)로 조정, 그리고 이러한 기술을 보완적 효과를 위해 통합하는 것입니다. 우리의 결과는 이러한 접근 방식이 효과적으로 적응되고 결합되어 이미지 생성 성능을 크게 향상시킬 수 있음을 보여줍니다. 더욱이, 우리의 결과에서 보상 모델의 중요한 역할을 고려하여, 우리는 자동 회귀 이미지 생성을 위해 특화된 잠재력 평가 보상 모델(PARM)과 PARM++을 제안합니다. PARM은 잠재력 평가 접근 방식을 통해 각 생성 단계를 적응적으로 평가하며, 기존 보상 모델의 장점을 통합하고, PARM++은 생성된 불만족스러운 이미지를 자가 수정하기 위한 반사 메커니즘을 도입합니다. 우리가 조사한 추론 전략을 사용하여 우리는 기준 모델인 Show-o를 향상시켜 우수한 결과를 달성하였으며, GenEval 벤치마크에서 +24%의 큰 개선을 이루어내어 Stable Diffusion 3를 +15% 초과하여 능가합니다. 우리의 연구가 독특한 통찰력을 제공하고 CoT 추론을 자동 회귀 이미지 생성과 통합하는 새로운 길을 열어줄 것으로 기대합니다. 코드와 모델은 https://github.com/ZiyuGuo99/Image-Generation-CoT에서 공개되어 있습니다.
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary