ChatPaper.aiChatPaper

나는 생각한다, 고로 나는 확산한다: 확산 모델에서 다중 모달 인-컨텍스트 추론 활성화

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

February 12, 2025
저자: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI

초록

본 논문은 ThinkDiff를 제시하는데, 이는 시각-언어 모델의 강점을 통합하여 텍스트-이미지 확산 모델에 다중 모달 인-컨텍스트 이해 및 추론 능력을 부여하는 혁신적인 정렬 패러다임입니다. 기존의 다중 모달 확산 파인튜닝 방법은 주로 컨텍스트 추론보다는 픽셀 수준의 재구성에 중점을 두며, 추론 기반 데이터셋의 복잡성과 제한된 가용성에 제약을 받습니다. ThinkDiff는 시각-언어 훈련을 프록시 작업으로 활용하여 이러한 도전에 대처하며, 확산 디코더 대신 인코더-디코더 대형 언어 모델(LLM)의 디코더와 VLM을 정렬함으로써 이를 해결합니다. 이 프록시 작업은 LLM 디코더가 해당 LLM 인코더를 사용하여 프롬프트 임베딩에 사용하는 확산 디코더와 동일한 입력 특성 공간을 공유한다는 관찰에 기초합니다. 결과적으로, VLM을 확산 디코더와 정렬하는 것은 LLM 디코더와의 정렬을 통해 단순화될 수 있습니다. 복잡한 훈련과 데이터셋 없이 ThinkDiff는 확산 모델에서 이해, 추론 및 구성 능력을 효과적으로 발휘합니다. 실험 결과, ThinkDiff는 다중 모달 인-컨텍스트 추론 생성을 위한 어려운 CoBSAT 벤치마크에서 정확도를 19.2%에서 46.3%로 크게 향상시키며, 4대의 A100 GPU에서 5시간의 훈련만으로 이루어집니다. 또한, ThinkDiff는 여러 이미지와 텍스트를 논리적으로 일관된 이미지로 구성하는 데 뛰어난 성능을 보여줍니다. 프로젝트 페이지: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers text-to-image diffusion models with multimodal in-context understanding and reasoning capabilities by integrating the strengths of vision-language models (VLMs). Existing multimodal diffusion finetuning methods largely focus on pixel-level reconstruction rather than in-context reasoning, and are constrained by the complexity and limited availability of reasoning-based datasets. ThinkDiff addresses these challenges by leveraging vision-language training as a proxy task, aligning VLMs with the decoder of an encoder-decoder large language model (LLM) instead of a diffusion decoder. This proxy task builds on the observation that the LLM decoder shares the same input feature space with diffusion decoders that use the corresponding LLM encoder for prompt embedding. As a result, aligning VLMs with diffusion decoders can be simplified through alignment with the LLM decoder. Without complex training and datasets, ThinkDiff effectively unleashes understanding, reasoning, and composing capabilities in diffusion models. Experiments demonstrate that ThinkDiff significantly improves accuracy from 19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context reasoning generation, with only 5 hours of training on 4 A100 GPUs. Additionally, ThinkDiff demonstrates exceptional performance in composing multiple images and texts into logically coherent images. Project page: https://mizhenxing.github.io/ThinkDiff.

Summary

AI-Generated Summary

PDF273February 18, 2025