ACDiT: Interpolieren von autoregressiver bedingter Modellierung und Diffusionstransformer

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

December 10, 2024
Autoren: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI

Zusammenfassung

Der kürzliche Anstieg des Interesses an umfassenden multimodalen Modellen hat die Vereinheitlichung verschiedener Modalitäten erforderlich gemacht. Die Vereinheitlichung leidet jedoch unter unterschiedlichen Methodologien. Die kontinuierliche visuelle Generierung erfordert den Ansatz der vollständigen Sequenzdiffusion, trotz seiner Abweichung von der autoregressiven Modellierung im Textbereich. Wir behaupten, dass die autoregressive Modellierung, d.h. die Vorhersage der Zukunft basierend auf vergangener deterministischer Erfahrung, entscheidend ist für die Entwicklung sowohl eines visuellen Generierungsmodells als auch eines potenziell vereinheitlichten multimodalen Modells. In diesem Paper erforschen wir eine Interpolation zwischen der autoregressiven Modellierung und der vollständigen Parameterdiffusion zur Modellierung visueller Informationen. Im Kern präsentieren wir ACDiT, einen autoregressiven blockweisen bedingten Diffusionstransformator, bei dem die Blockgröße der Diffusion, d.h. die Größe der autoregressiven Einheiten, flexibel angepasst werden kann, um zwischen tokenweiser Autoregression und vollständiger Sequenzdiffusion zu interpolieren. ACDiT ist einfach umzusetzen, indem während des Trainings eine Skip-Causal Attention Mask (SCAM) erstellt wird. Während der Inferenz erfolgt der Prozess iterativ zwischen Diffusionsrauschunterdrückung und autoregressivem Decodieren, was die vollständige Nutzung des KV-Caches ermöglicht. Wir überprüfen die Wirksamkeit von ACDiT bei Bild- und Videogenerierungsaufgaben. Wir zeigen auch, dass ACDiT, das von der autoregressiven Modellierung profitiert, nahtlos in visuellen Verständnisaufgaben eingesetzt werden kann, obwohl es auf das Diffusionsziel trainiert wurde. Die Analyse des Kompromisses zwischen autoregressiver Modellierung und Diffusion zeigt das Potenzial von ACDiT für den Einsatz in langfristigen visuellen Generierungsaufgaben auf. Diese Stärken machen es vielversprechend als Grundlage zukünftiger vereinheitlichter Modelle.
English
The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.

Summary

AI-Generated Summary

PDF322December 11, 2024