LoRACLR: 拡散モデルのカスタマイズのための対照的適応
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
December 12, 2024
著者: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI
要旨
最近のテキストから画像へのカスタマイズの進歩により、高忠実度でコンテキスト豊かな個人用画像の生成が可能となり、特定の概念がさまざまなシナリオに現れるようになりました。ただし、現在の方法は複数の個人用モデルを組み合わせる際に苦労し、しばしば属性の絡み合いを引き起こしたり、概念の独自性を保持するために別々のトレーニングが必要となることがあります。私たちは、LoRACLRという新しい手法を提案します。これは、異なる概念にそれぞれファインチューニングされた複数のLoRAモデルを追加の個別のファインチューニングなしで1つの統一されたモデルに統合する多概念画像生成のための手法です。LoRACLRは、これらのモデルの重み空間を整列およびマージし、干渉を最小限に抑えながら互換性を確保するために対照的な目的を使用します。各概念に独自でありながら一貫した表現を強制することで、LoRACLRは高品質な多概念画像合成のための効率的でスケーラブルなモデル構成を実現します。私たちの結果は、LoRACLRが複数の概念を正確に統合する効果を示し、個人用画像生成の能力を向上させています。
English
Recent advances in text-to-image customization have enabled high-fidelity,
context-rich generation of personalized images, allowing specific concepts to
appear in a variety of scenarios. However, current methods struggle with
combining multiple personalized models, often leading to attribute entanglement
or requiring separate training to preserve concept distinctiveness. We present
LoRACLR, a novel approach for multi-concept image generation that merges
multiple LoRA models, each fine-tuned for a distinct concept, into a single,
unified model without additional individual fine-tuning. LoRACLR uses a
contrastive objective to align and merge the weight spaces of these models,
ensuring compatibility while minimizing interference. By enforcing distinct yet
cohesive representations for each concept, LoRACLR enables efficient, scalable
model composition for high-quality, multi-concept image synthesis. Our results
highlight the effectiveness of LoRACLR in accurately merging multiple concepts,
advancing the capabilities of personalized image generation.Summary
AI-Generated Summary