VMix: Miglioramento del modello di diffusione testo-immagine con cross-attention Controllo di miscelazione
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
Autori: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
Abstract
Mentre i modelli di diffusione mostrano talenti straordinari nella generazione testo-immagine, potrebbero comunque fallire nel generare immagini altamente estetiche. Più specificamente, esiste ancora un divario tra le immagini generate e le immagini estetiche del mondo reale in dimensioni più dettagliate, tra cui colore, illuminazione, composizione, ecc. In questo articolo, proponiamo l'Adattatore di Controllo di Miscelazione dei Valori di Cross-Attention (VMix), un adattatore estetico plug-and-play, per migliorare la qualità delle immagini generate mantenendo al contempo la generalità tra i concetti visivi attraverso (1) la disintegrazione del prompt di testo in input nella descrizione del contenuto e nella descrizione estetica tramite l'inizializzazione dell'incorporamento estetico, e (2) l'integrazione delle condizioni estetiche nel processo di denoising attraverso cross-attention con valori misti, con la rete connessa da strati lineari inizializzati a zero. La nostra intuizione chiave è quella di potenziare la presentazione estetica dei modelli di diffusione esistenti progettando un metodo di controllo delle condizioni superiore, mantenendo allo stesso tempo l'allineamento immagine-testo. Attraverso il nostro design meticoloso, VMix è sufficientemente flessibile da poter essere applicato ai modelli della comunità per una migliore performance visiva senza necessità di riallenamento. Per convalidare l'efficacia del nostro metodo, abbiamo condotto ampi esperimenti, dimostrando che VMix supera altri metodi all'avanguardia ed è compatibile con altri moduli della comunità (ad es. LoRA, ControlNet e IPAdapter) per la generazione di immagini. La pagina del progetto è https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.Summary
AI-Generated Summary