MarDini : Diffusion Autoregressive Masquée pour la Génération Vidéo à Grande Échelle
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
October 26, 2024
Auteurs: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI
Résumé
Nous présentons MarDini, une nouvelle famille de modèles de diffusion vidéo qui intègrent les avantages de l'autorégression masquée (MAR) dans un cadre de modèle de diffusion unifié (DM). Ici, MAR gère la planification temporelle, tandis que DM se concentre sur la génération spatiale dans une conception de réseau asymétrique : i) un modèle de planification basé sur MAR contenant la plupart des paramètres génère des signaux de planification pour chaque trame masquée en utilisant une entrée de basse résolution ; ii) un modèle de génération léger utilise ces signaux pour produire des trames haute résolution via un processus de débruitage par diffusion. Le MAR de MarDini permet la génération de vidéos conditionnée par n'importe quel nombre de trames masquées à n'importe quelle position de trame : un seul modèle peut gérer l'interpolation vidéo (par exemple, le masquage des trames intermédiaires), la génération d'images en vidéo (par exemple, le masquage à partir de la deuxième trame) et l'expansion vidéo (par exemple, le masquage de la moitié des trames). La conception efficace alloue la plupart des ressources informatiques au modèle de planification de basse résolution, rendant ainsi possible à grande échelle une attention spatio-temporelle coûteuse mais importante. MarDini établit un nouvel état de l'art pour l'interpolation vidéo ; en même temps, en quelques étapes d'inférence, il génère efficacement des vidéos comparables à celles de modèles image-vidéo avancés beaucoup plus coûteux.
English
We introduce MarDini, a new family of video diffusion models that integrate
the advantages of masked auto-regression (MAR) into a unified diffusion model
(DM) framework. Here, MAR handles temporal planning, while DM focuses on
spatial generation in an asymmetric network design: i) a MAR-based planning
model containing most of the parameters generates planning signals for each
masked frame using low-resolution input; ii) a lightweight generation model
uses these signals to produce high-resolution frames via diffusion de-noising.
MarDini's MAR enables video generation conditioned on any number of masked
frames at any frame positions: a single model can handle video interpolation
(e.g., masking middle frames), image-to-video generation (e.g., masking from
the second frame onward), and video expansion (e.g., masking half the frames).
The efficient design allocates most of the computational resources to the
low-resolution planning model, making computationally expensive but important
spatio-temporal attention feasible at scale. MarDini sets a new
state-of-the-art for video interpolation; meanwhile, within few inference
steps, it efficiently generates videos on par with those of much more expensive
advanced image-to-video models.Summary
AI-Generated Summary