VMix: Miglioramento del modello di diffusione testo-immagine con cross-attention Controllo di miscelazione

Abstract

Mentre i modelli di diffusione mostrano talenti straordinari nella generazione testo-immagine, potrebbero comunque fallire nel generare immagini altamente estetiche. Più specificamente, esiste ancora un divario tra le immagini generate e le immagini estetiche del mondo reale in dimensioni più dettagliate, tra cui colore, illuminazione, composizione, ecc. In questo articolo, proponiamo l'Adattatore di Controllo di Miscelazione dei Valori di Cross-Attention (VMix), un adattatore estetico plug-and-play, per migliorare la qualità delle immagini generate mantenendo al contempo la generalità tra i concetti visivi attraverso (1) la disintegrazione del prompt di testo in input nella descrizione del contenuto e nella descrizione estetica tramite l'inizializzazione dell'incorporamento estetico, e (2) l'integrazione delle condizioni estetiche nel processo di denoising attraverso cross-attention con valori misti, con la rete connessa da strati lineari inizializzati a zero. La nostra intuizione chiave è quella di potenziare la presentazione estetica dei modelli di diffusione esistenti progettando un metodo di controllo delle condizioni superiore, mantenendo allo stesso tempo l'allineamento immagine-testo. Attraverso il nostro design meticoloso, VMix è sufficientemente flessibile da poter essere applicato ai modelli della comunità per una migliore performance visiva senza necessità di riallenamento. Per convalidare l'efficacia del nostro metodo, abbiamo condotto ampi esperimenti, dimostrando che VMix supera altri metodi all'avanguardia ed è compatibile con altri moduli della comunità (ad es. LoRA, ControlNet e IPAdapter) per la generazione di immagini. La pagina del progetto è https://vmix-diffusion.github.io/VMix/.

English

While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

VMix: Miglioramento del modello di diffusione testo-immagine con cross-attention Controllo di miscelazione

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Abstract

Summary

Support