LoRACLR: 확산 모델 맞춤화를 위한 대조적 적응
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
December 12, 2024
저자: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI
초록
텍스트에서 이미지로의 맞춤화에 대한 최근의 발전은 고사양, 맥락 풍부한 개인화된 이미지 생성을 가능케 하여 특정 개념이 다양한 시나리오에서 나타날 수 있게 했습니다. 그러나 현재의 방법은 종종 여러 개인화된 모델을 결합하는 데 어려움을 겪어 속성이 얽히거나 개념의 독립성을 보존하기 위해 별도의 훈련이 필요합니다. 본 논문에서는 LoRACLR을 제안합니다. 이는 각각이 다른 개념을 위해 세밀하게 조정된 여러 LoRA 모델을 추가적인 개별 세밀 조정 없이 하나의 통합된 모델로 병합하는 다중 개념 이미지 생성을 위한 혁신적인 접근 방식입니다. LoRACLR은 이러한 모델들의 가중치 공간을 정렬하고 병합하기 위해 대조적 목적을 사용하여 호환성을 보장하면서 간섭을 최소화합니다. 각 개념에 대해 구별되고 동질적인 표현을 강제함으로써 LoRACLR은 고품질, 다중 개념 이미지 합성을 위한 효율적이고 확장 가능한 모델 구성을 가능케 합니다. 우리의 결과는 LoRACLR이 여러 개념을 정확하게 병합하는 능력을 강조하며 개인화된 이미지 생성의 능력을 높이는 데 기여함을 보여줍니다.
English
Recent advances in text-to-image customization have enabled high-fidelity,
context-rich generation of personalized images, allowing specific concepts to
appear in a variety of scenarios. However, current methods struggle with
combining multiple personalized models, often leading to attribute entanglement
or requiring separate training to preserve concept distinctiveness. We present
LoRACLR, a novel approach for multi-concept image generation that merges
multiple LoRA models, each fine-tuned for a distinct concept, into a single,
unified model without additional individual fine-tuning. LoRACLR uses a
contrastive objective to align and merge the weight spaces of these models,
ensuring compatibility while minimizing interference. By enforcing distinct yet
cohesive representations for each concept, LoRACLR enables efficient, scalable
model composition for high-quality, multi-concept image synthesis. Our results
highlight the effectiveness of LoRACLR in accurately merging multiple concepts,
advancing the capabilities of personalized image generation.