MarDini: Diffusione Autoregressiva Mascherata per la Generazione di Video su Larga Scala
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
October 26, 2024
Autori: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI
Abstract
Introduciamo MarDini, una nuova famiglia di modelli di diffusione video che integrano i vantaggi della regressione auto-mascherata (MAR) in un framework unificato di modelli di diffusione (DM). Qui, MAR gestisce la pianificazione temporale, mentre DM si concentra sulla generazione spaziale in un design di rete asimmetrico: i) un modello di pianificazione basato su MAR che contiene la maggior parte dei parametri genera segnali di pianificazione per ciascun frame mascherato utilizzando un input a bassa risoluzione; ii) un modello di generazione leggero utilizza questi segnali per produrre frame ad alta risoluzione tramite de-noising per diffusione. Il MAR di MarDini consente la generazione di video condizionata a qualsiasi numero di frame mascherati in qualsiasi posizione del frame: un singolo modello può gestire l'interpolazione video (ad esempio, mascherando i frame intermedi), la generazione di immagini-video (ad esempio, mascherando dal secondo frame in poi) e l'espansione video (ad esempio, mascherando la metà dei frame). Il design efficiente assegna la maggior parte delle risorse computazionali al modello di pianificazione a bassa risoluzione, rendendo fattibile a scala l'attenzione spazio-temporale computazionalmente costosa ma importante. MarDini stabilisce un nuovo stato dell'arte per l'interpolazione video; nel frattempo, entro pochi passaggi di inferenza, genera efficientemente video all'altezza di quelli di modelli avanzati di generazione di immagini-video molto più costosi.
English
We introduce MarDini, a new family of video diffusion models that integrate
the advantages of masked auto-regression (MAR) into a unified diffusion model
(DM) framework. Here, MAR handles temporal planning, while DM focuses on
spatial generation in an asymmetric network design: i) a MAR-based planning
model containing most of the parameters generates planning signals for each
masked frame using low-resolution input; ii) a lightweight generation model
uses these signals to produce high-resolution frames via diffusion de-noising.
MarDini's MAR enables video generation conditioned on any number of masked
frames at any frame positions: a single model can handle video interpolation
(e.g., masking middle frames), image-to-video generation (e.g., masking from
the second frame onward), and video expansion (e.g., masking half the frames).
The efficient design allocates most of the computational resources to the
low-resolution planning model, making computationally expensive but important
spatio-temporal attention feasible at scale. MarDini sets a new
state-of-the-art for video interpolation; meanwhile, within few inference
steps, it efficiently generates videos on par with those of much more expensive
advanced image-to-video models.Summary
AI-Generated Summary