LoRA.rar: Apprendimento per unire LoRA tramite Hypernetworks per la generazione di immagini condizionate dallo stile del soggetto
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Autori: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Abstract
I recenti progressi nei modelli di generazione di immagini hanno reso possibile la creazione di immagini personalizzate con soggetti (contenuti) e stili definiti dall'utente. Lavori precedenti hanno ottenuto la personalizzazione unendo i corrispondenti parametri di adattamento a basso rango (LoRA) attraverso metodi basati sull'ottimizzazione, che sono computazionalmente impegnativi e non adatti all'uso in tempo reale su dispositivi con risorse limitate come gli smartphone. Per affrontare questo problema, presentiamo LoRA.rar, un metodo che non solo migliora la qualità delle immagini ma ottiene anche un notevole aumento di oltre 4000 volte nel processo di fusione. LoRA.rar pre-allena un iper-rete su un insieme diversificato di coppie LoRA di contenuto-stile, apprendendo una strategia di fusione efficiente che generalizza a nuove coppie di contenuto-stile non viste, consentendo una personalizzazione rapida e di alta qualità. Inoltre, identifichiamo limitazioni nelle metriche di valutazione esistenti per la qualità del contenuto e dello stile e proponiamo un nuovo protocollo che utilizza modelli di linguaggio multimodali di grandi dimensioni (MLLM) per una valutazione più accurata. Il nostro metodo supera significativamente lo stato dell'arte attuale sia nella fedeltà al contenuto che allo stile, come confermato dalle valutazioni MLLM e dalle valutazioni umane.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary