ChatPaper.aiChatPaper

VMix: 교차 주의를 활용한 텍스트-이미지 확산 모델의 개선 혼합 제어

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

December 30, 2024
저자: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI

초록

확산 모델은 텍스트에서 이미지를 생성하는 데 뛰어난 재능을 보여주지만, 여전히 매우 미 esthetic한 이미지를 생성하는 데 실패할 수 있습니다. 구체적으로, 생성된 이미지와 실제 세계의 aesthetic 이미지 간에는 색상, 조명, 구성 등을 포함한 보다 세분화된 차원에서 여전히 격차가 존재합니다. 본 논문에서는 시각적 개념을 횡단하는 Cross-Attention Value Mixing Control (VMix) Adapter를 제안하여 생성된 이미지의 품질을 업그레이드하고, 시각적 개념을 횡단하여 일반성을 유지하는 동안 (1) aesthetic embedding의 초기화를 통해 입력 텍스트 프롬프트를 콘텐츠 설명과 aesthetic 설명으로 분리하고, (2) 가치 혼합된 교차-주의를 통해 aesthetic 조건을 소음 제거 프로세스에 통합하는 것입니다. 네트워크는 제로 초기화된 선형 레이어로 연결됩니다. 우리의 주요 통찰력은 이미지-텍스트 정렬을 유지하면서 우수한 조건 제어 방법을 설계함으로써 기존의 확산 모델의 aesthetic 표현을 향상시키는 데 있습니다. 세심한 설계를 통해 VMix는 재훈련 없이 커뮤니티 모델에 적용되어 시각적 성능을 향상시킬 수 있을 만큼 유연합니다. 우리의 방법의 효과를 검증하기 위해 포괄적인 실험을 실시하여 VMix가 다른 최첨단 방법보다 우수하며 이미지 생성을 위해 다른 커뮤니티 모듈 (예: LoRA, ControlNet 및 IPAdapter)과 호환되는 것을 보여주었습니다. 프로젝트 페이지는 https://vmix-diffusion.github.io/VMix/ 에 있습니다.
English
While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

Summary

AI-Generated Summary

PDF102January 3, 2025