Dalle parole ai pixel: un framework per l'evoluzione cross-modalità

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

December 19, 2024
Autori: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI

Abstract

I modelli di diffusione e la loro generalizzazione, il flow matching, hanno avuto un impatto notevole nel campo della generazione di media. Qui, l'approccio convenzionale consiste nel imparare la mappatura complessa da una semplice distribuzione di sorgente di rumore gaussiano alla distribuzione di media target. Per compiti cross-modal come la generazione di testo-immagine, si impara la stessa mappatura da rumore a immagine includendo un meccanismo di condizionamento nel modello. Una caratteristica chiave, finora relativamente inesplorata, del flow matching è che, a differenza dei modelli di diffusione, non sono vincolati affinché la distribuzione di sorgente sia rumore. Pertanto, in questo articolo, proponiamo un cambio di paradigma e ci chiediamo se invece possiamo addestrare modelli di flow matching per imparare una mappatura diretta dalla distribuzione di una modalità alla distribuzione di un'altra, evitando così la necessità sia della distribuzione di rumore che del meccanismo di condizionamento. Presentiamo un framework generale e semplice, CrossFlow, per il flow matching cross-modal. Mostreremo l'importanza dell'applicazione degli Encoder Variazionali ai dati in ingresso e introdurremo un metodo per abilitare una guida senza classificatore. Sorprendentemente, per il testo-immagine, CrossFlow con un transformer vanilla senza attenzione incrociata supera leggermente il flow matching standard, e mostriamo che scala meglio con i passaggi di addestramento e le dimensioni del modello, consentendo anche interessanti operazioni aritmetiche latenti che producono modifiche semanticamente significative nello spazio di output. Per dimostrare la generalizzabilità del nostro approccio, mostriamo anche che CrossFlow è all'altezza o supera lo stato dell'arte per vari compiti di mappatura cross-modali / intra-modali, come la didascalia delle immagini, la stima della profondità e la sovrapposizione delle immagini. Speriamo che questo articolo contribuisca ad accelerare i progressi nella generazione di media cross-modali.
English
Diffusion models, and their generalization, flow matching, have had a remarkable impact on the field of media generation. Here, the conventional approach is to learn the complex mapping from a simple source distribution of Gaussian noise to the target media distribution. For cross-modal tasks such as text-to-image generation, this same mapping from noise to image is learnt whilst including a conditioning mechanism in the model. One key and thus far relatively unexplored feature of flow matching is that, unlike Diffusion models, they are not constrained for the source distribution to be noise. Hence, in this paper, we propose a paradigm shift, and ask the question of whether we can instead train flow matching models to learn a direct mapping from the distribution of one modality to the distribution of another, thus obviating the need for both the noise distribution and conditioning mechanism. We present a general and simple framework, CrossFlow, for cross-modal flow matching. We show the importance of applying Variational Encoders to the input data, and introduce a method to enable Classifier-free guidance. Surprisingly, for text-to-image, CrossFlow with a vanilla transformer without cross attention slightly outperforms standard flow matching, and we show that it scales better with training steps and model size, while also allowing for interesting latent arithmetic which results in semantically meaningful edits in the output space. To demonstrate the generalizability of our approach, we also show that CrossFlow is on par with or outperforms the state-of-the-art for various cross-modal / intra-modal mapping tasks, viz. image captioning, depth estimation, and image super-resolution. We hope this paper contributes to accelerating progress in cross-modal media generation.

Summary

AI-Generated Summary

PDF264December 20, 2024