VMix: Melhorando o Modelo de Difusão de Texto para Imagem com Atenção Cruzada Controle de Mistura
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
Autores: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
Resumo
Embora os modelos de difusão demonstrem talentos extraordinários na geração de texto para imagem, ainda podem falhar ao gerar imagens altamente estéticas. Mais especificamente, ainda existe uma lacuna entre as imagens geradas e as imagens estéticas do mundo real em dimensões mais refinadas, incluindo cor, iluminação, composição, etc. Neste artigo, propomos o Adaptador de Controle de Mistura de Valor de Atenção Cruzada (VMix), um adaptador estético plug-and-play, para melhorar a qualidade das imagens geradas enquanto mantém a generalidade entre os conceitos visuais, através de (1) desmembrar o prompt de texto de entrada na descrição de conteúdo e descrição estética pela inicialização da incorporação estética, e (2) integrar condições estéticas no processo de remoção de ruído por meio de atenção cruzada mista de valores, com a rede conectada por camadas lineares inicializadas com zero. Nosso insight chave é aprimorar a apresentação estética dos modelos de difusão existentes projetando um método de controle de condição superior, tudo isso enquanto preserva o alinhamento imagem-texto. Através de nosso design meticuloso, o VMix é flexível o suficiente para ser aplicado a modelos comunitários para melhor desempenho visual sem a necessidade de retrabalho. Para validar a eficácia de nosso método, conduzimos experimentos extensivos, mostrando que o VMix supera outros métodos de ponta e é compatível com outros módulos comunitários (por exemplo, LoRA, ControlNet e IPAdapter) para geração de imagens. A página do projeto é https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.Summary
AI-Generated Summary