ACDiT: Interpolazione tra il Modellamento Condizionale Autoregressivo e il Trasformatore di Diffusione
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Autori: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Abstract
L'attuale aumento di interesse nei modelli multimodali completi ha reso necessaria l'unificazione delle diverse modalità. Tuttavia, l'unificazione soffre di metodologie disparate. La generazione visiva continua richiede l'approccio basato sulla diffusione a sequenza completa, nonostante la sua divergenza dalla modellazione autoregressiva nel dominio del testo. Sosteniamo che la modellazione autoregressiva, cioè prevedere il futuro basandosi sull'esperienza deterministica passata, rimanga cruciale nello sviluppo sia di un modello di generazione visiva che di un potenziale modello multimodale unificato. In questo articolo, esploriamo un'interpolazione tra la modellazione autoregressiva e la diffusione a parametri completi per modellare le informazioni visive. Al suo nucleo, presentiamo ACDiT, un Trasformatore di Diffusione Condizionale a blocchi Autoregressivi, in cui la dimensione del blocco di diffusione, cioè la dimensione delle unità autoregressive, può essere regolata in modo flessibile per interpolare tra l'autoregressione a livello di token e la diffusione a sequenza completa. ACDiT è facile da implementare, semplice quanto creare una Maschera di Attenzione Causale a Salto (SCAM) durante l'addestramento. Durante l'inferenza, il processo itera tra il denoising della diffusione e la decodifica autoregressiva che può sfruttare appieno la KV-Cache. Verifichiamo l'efficacia di ACDiT nei compiti di generazione di immagini e video. Dimostriamo inoltre che, beneficiando della modellazione autoregressiva, ACDiT può essere utilizzato senza soluzione di continuità nei compiti di comprensione visiva nonostante sia stato addestrato sull'obiettivo della diffusione. L'analisi del compromesso tra la modellazione autoregressiva e la diffusione dimostra il potenziale di ACDiT nell'essere utilizzato nei compiti di generazione visiva a lungo termine. Questi punti di forza lo rendono promettente come base per i futuri modelli unificati.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary