LoRA.rar: Apprendimento per unire LoRA tramite Hypernetworks per la generazione di immagini condizionate dallo stile del soggetto

Abstract

I recenti progressi nei modelli di generazione di immagini hanno reso possibile la creazione di immagini personalizzate con soggetti (contenuti) e stili definiti dall'utente. Lavori precedenti hanno ottenuto la personalizzazione unendo i corrispondenti parametri di adattamento a basso rango (LoRA) attraverso metodi basati sull'ottimizzazione, che sono computazionalmente impegnativi e non adatti all'uso in tempo reale su dispositivi con risorse limitate come gli smartphone. Per affrontare questo problema, presentiamo LoRA.rar, un metodo che non solo migliora la qualità delle immagini ma ottiene anche un notevole aumento di oltre 4000 volte nel processo di fusione. LoRA.rar pre-allena un iper-rete su un insieme diversificato di coppie LoRA di contenuto-stile, apprendendo una strategia di fusione efficiente che generalizza a nuove coppie di contenuto-stile non viste, consentendo una personalizzazione rapida e di alta qualità. Inoltre, identifichiamo limitazioni nelle metriche di valutazione esistenti per la qualità del contenuto e dello stile e proponiamo un nuovo protocollo che utilizza modelli di linguaggio multimodali di grandi dimensioni (MLLM) per una valutazione più accurata. Il nostro metodo supera significativamente lo stato dell'arte attuale sia nella fedeltà al contenuto che allo stile, come confermato dalle valutazioni MLLM e dalle valutazioni umane.

English

Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over 4000times in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.

LoRA.rar: Apprendimento per unire LoRA tramite Hypernetworks per la generazione di immagini condizionate dallo stile del soggetto

LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Abstract

Support