VMix: クロスアテンションを用いたテキストから画像への拡散モデルの改善 混合制御
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
著者: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
要旨
拡散モデルはテキストから画像を生成する際に卓越した才能を示す一方、高度な美的な画像を生成することには依然として失敗する可能性があります。具体的には、色彩、照明、構図などの微細な次元において、生成された画像と実世界の美的な画像との間にはまだ隔たりがあります。本論文では、可視性コンセプト全体にわたって一般性を維持しながら生成された画像の品質を向上させるために、プラグアンドプレイの美学アダプタであるCross-Attention Value Mixing Control(VMix)アダプタを提案します。これは、(1)美的埋め込みの初期化によって入力テキストプロンプトをコンテンツ記述と美学的記述に分解し、(2)ゼロ初期化された線形層によってネットワークを接続し、値混合されたクロスアテンションを介して美学的条件をノイズ除去プロセスに統合することによって実現されます。私たちの鍵となる洞察は、既存の拡散モデルの美的表現を向上させるために、画像とテキストの整合性を保ちながら優れた条件制御方法を設計することです。慎重な設計により、VMixは再トレーニングを必要とせずにコミュニティモデルに適用できる柔軟性があります。当社の手法の有効性を検証するために、包括的な実験を行い、VMixが他の最先端の手法を凌駕し、画像生成のための他のコミュニティモジュール(例:LoRA、ControlNet、およびIPAdapter)と互換性があることを示しました。プロジェクトページはhttps://vmix-diffusion.github.io/VMix/ です。
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.Summary
AI-Generated Summary