Fluindo de Palavras para Pixels: Um Framework para Evolução de Cross-Modalidade
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Autores: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Resumo
Os modelos de difusão e sua generalização, correspondência de fluxo, tiveram um impacto notável no campo da geração de mídia. Aqui, a abordagem convencional é aprender o mapeamento complexo de uma distribuição de fonte simples de ruído gaussiano para a distribuição de mídia alvo. Para tarefas cross-modais como geração de texto para imagem, esse mesmo mapeamento de ruído para imagem é aprendido incluindo um mecanismo de condicionamento no modelo. Uma característica fundamental e até agora relativamente inexplorada da correspondência de fluxo é que, ao contrário dos modelos de Difusão, eles não são limitados para que a distribuição de origem seja ruído. Portanto, neste artigo, propomos uma mudança de paradigma e questionamos se podemos, em vez disso, treinar modelos de correspondência de fluxo para aprender um mapeamento direto da distribuição de uma modalidade para a distribuição de outra, eliminando assim a necessidade tanto da distribuição de ruído quanto do mecanismo de condicionamento. Apresentamos um framework geral e simples, CrossFlow, para correspondência de fluxo cross-modal. Mostramos a importância de aplicar Codificadores Variacionais aos dados de entrada e introduzimos um método para permitir orientação sem classificador. Surpreendentemente, para texto para imagem, CrossFlow com um transformador simples sem atenção cruzada supera ligeiramente a correspondência de fluxo padrão, e mostramos que ele escala melhor com etapas de treinamento e tamanho do modelo, permitindo também aritmética latente interessante que resulta em edições semanticamente significativas no espaço de saída. Para demonstrar a generalizabilidade de nossa abordagem, também mostramos que o CrossFlow está em pé de igualdade ou supera o estado-da-arte para várias tarefas de mapeamento cross-modal / intra-modal, como legenda de imagem, estimativa de profundidade e super-resolução de imagem. Esperamos que este artigo contribua para acelerar o progresso na geração de mídia cross-modal.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.Summary
AI-Generated Summary