MarDini: Maskierte autoregressive Diffusion zur Videogenerierung im großen Maßstab
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
October 26, 2024
Autoren: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI
Zusammenfassung
Wir stellen MarDini vor, eine neue Familie von Videodiffusionsmodellen, die die Vorteile der maskierten Auto-Regression (MAR) in ein vereinheitlichtes Diffusionsmodell (DM) integrieren. Hier übernimmt MAR die zeitliche Planung, während DM sich auf die räumliche Generierung in einem asymmetrischen Netzwerkdesign konzentriert: i) Ein auf MAR basierendes Planungsmodell, das die meisten Parameter enthält, generiert Planungssignale für jedes maskierte Frame unter Verwendung eines Eingangs mit geringer Auflösung; ii) Ein leichtgewichtiges Generierungsmodell verwendet diese Signale, um hochauflösende Frames über Diffusionsrauschen zu erzeugen. MarDinis MAR ermöglicht die Videogenerierung, die auf einer beliebigen Anzahl von maskierten Frames an beliebigen Frame-Positionen bedingt ist: Ein einzelnes Modell kann die Videointerpolation (z.B. Maskierung von mittleren Frames), die Bild-zu-Video-Generierung (z.B. Maskierung ab dem zweiten Frame) und die Videoerweiterung (z.B. Maskierung der Hälfte der Frames) bewältigen. Das effiziente Design weist den Großteil der Rechenressourcen dem Planungsmodell mit geringer Auflösung zu, was es ermöglicht, rechenintensive, aber wichtige räumlich-zeitliche Aufmerksamkeit in großem Maßstab durchzuführen. MarDini setzt einen neuen Stand der Technik für die Videointerpolation; währenddessen generiert es effizient innerhalb weniger Inferenzschritte Videos auf dem Niveau von deutlich teureren fortschrittlichen Bild-zu-Video-Modellen.
English
We introduce MarDini, a new family of video diffusion models that integrate
the advantages of masked auto-regression (MAR) into a unified diffusion model
(DM) framework. Here, MAR handles temporal planning, while DM focuses on
spatial generation in an asymmetric network design: i) a MAR-based planning
model containing most of the parameters generates planning signals for each
masked frame using low-resolution input; ii) a lightweight generation model
uses these signals to produce high-resolution frames via diffusion de-noising.
MarDini's MAR enables video generation conditioned on any number of masked
frames at any frame positions: a single model can handle video interpolation
(e.g., masking middle frames), image-to-video generation (e.g., masking from
the second frame onward), and video expansion (e.g., masking half the frames).
The efficient design allocates most of the computational resources to the
low-resolution planning model, making computationally expensive but important
spatio-temporal attention feasible at scale. MarDini sets a new
state-of-the-art for video interpolation; meanwhile, within few inference
steps, it efficiently generates videos on par with those of much more expensive
advanced image-to-video models.Summary
AI-Generated Summary