MarDini : Diffusion Autoregressive Masquée pour la Génération Vidéo à Grande Échelle

Résumé

Nous présentons MarDini, une nouvelle famille de modèles de diffusion vidéo qui intègrent les avantages de l'autorégression masquée (MAR) dans un cadre de modèle de diffusion unifié (DM). Ici, MAR gère la planification temporelle, tandis que DM se concentre sur la génération spatiale dans une conception de réseau asymétrique : i) un modèle de planification basé sur MAR contenant la plupart des paramètres génère des signaux de planification pour chaque trame masquée en utilisant une entrée de basse résolution ; ii) un modèle de génération léger utilise ces signaux pour produire des trames haute résolution via un processus de débruitage par diffusion. Le MAR de MarDini permet la génération de vidéos conditionnée par n'importe quel nombre de trames masquées à n'importe quelle position de trame : un seul modèle peut gérer l'interpolation vidéo (par exemple, le masquage des trames intermédiaires), la génération d'images en vidéo (par exemple, le masquage à partir de la deuxième trame) et l'expansion vidéo (par exemple, le masquage de la moitié des trames). La conception efficace alloue la plupart des ressources informatiques au modèle de planification de basse résolution, rendant ainsi possible à grande échelle une attention spatio-temporelle coûteuse mais importante. MarDini établit un nouvel état de l'art pour l'interpolation vidéo ; en même temps, en quelques étapes d'inférence, il génère efficacement des vidéos comparables à celles de modèles image-vidéo avancés beaucoup plus coûteux.

English

We introduce MarDini, a new family of video diffusion models that integrate the advantages of masked auto-regression (MAR) into a unified diffusion model (DM) framework. Here, MAR handles temporal planning, while DM focuses on spatial generation in an asymmetric network design: i) a MAR-based planning model containing most of the parameters generates planning signals for each masked frame using low-resolution input; ii) a lightweight generation model uses these signals to produce high-resolution frames via diffusion de-noising. MarDini's MAR enables video generation conditioned on any number of masked frames at any frame positions: a single model can handle video interpolation (e.g., masking middle frames), image-to-video generation (e.g., masking from the second frame onward), and video expansion (e.g., masking half the frames). The efficient design allocates most of the computational resources to the low-resolution planning model, making computationally expensive but important spatio-temporal attention feasible at scale. MarDini sets a new state-of-the-art for video interpolation; meanwhile, within few inference steps, it efficiently generates videos on par with those of much more expensive advanced image-to-video models.

MarDini : Diffusion Autoregressive Masquée pour la Génération Vidéo à Grande Échelle

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Résumé

Support