LoRACLR: Adattamento Contrastivo per la Personalizzazione dei Modelli di Diffusione

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

December 12, 2024
Autori: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI

Abstract

I recenti progressi nella personalizzazione del testo all'immagine hanno reso possibile la generazione di immagini personalizzate ad alta fedeltà e ricche di contesto, consentendo a concetti specifici di apparire in una varietà di scenari. Tuttavia, i metodi attuali faticano nel combinare più modelli personalizzati, spesso portando all'intreccio degli attributi o richiedendo un addestramento separato per preservare la distinzione dei concetti. Presentiamo LoRACLR, un nuovo approccio per la generazione di immagini multi-concetto che fonde più modelli LoRA, ognuno ottimizzato per un concetto distinto, in un unico modello unificato senza ulteriore ottimizzazione individuale. LoRACLR utilizza un obiettivo contrastivo per allineare e fondere gli spazi dei pesi di questi modelli, garantendo la compatibilità e minimizzando le interferenze. Applicando rappresentazioni distinte ma coerenti per ciascun concetto, LoRACLR consente una composizione efficiente e scalabile dei modelli per la sintesi di immagini multi-concetto di alta qualità. I nostri risultati evidenziano l'efficacia di LoRACLR nel fondere accuratamente più concetti, avanzando le capacità della generazione di immagini personalizzate.
English
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.

Summary

AI-Generated Summary

PDF82December 13, 2024