Modellazione del linguaggio latente multimodale con diffusione del token successivo
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
Autori: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Abstract
I modelli generativi multimodali richiedono un approccio unificato per gestire sia dati discreti (ad esempio, testo e codice) che dati continui (ad esempio, immagini, audio, video). In questo lavoro, proponiamo il Modellamento del Linguaggio Latente (LatentLM), che integra in modo fluido dati continui e discreti utilizzando Trasformatori causali. In particolare, impieghiamo un autoencoder variazionale (VAE) per rappresentare i dati continui come vettori latenti e introduciamo la diffusione del token successivo per la generazione autoregressiva di questi vettori. Inoltre, sviluppiamo il sigma-VAE per affrontare le sfide del collasso della varianza, che è cruciale per la modellazione autoregressiva. Esperimenti estesi dimostrano l'efficacia di LatentLM attraverso varie modalità. Nella generazione di immagini, LatentLM supera i Trasformatori a Diffusione sia in termini di prestazioni che di scalabilità. Quando integrato nei grandi modelli di linguaggio multimodali, LatentLM fornisce un'interfaccia multiuso che unifica la generazione multimodale e la comprensione. I risultati sperimentali mostrano che LatentLM ottiene prestazioni favorevoli rispetto a Transfusion e modelli quantizzati a vettori nell'ambito dell'incremento dei token di addestramento. Nella sintesi testo-a-parola, LatentLM supera il modello VALL-E 2 all'avanguardia nella similarità e nella robustezza degli speaker, richiedendo al contempo 10 volte meno passaggi di decodifica. I risultati confermano LatentLM come un approccio altamente efficace e scalabile per far progredire i grandi modelli multimodali.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary