MarDini: Gemaskeerde Autoregressieve Diffusie voor Videogeneratie op Schaal

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

October 26, 2024
Auteurs: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI

Samenvatting

We introduceren MarDini, een nieuwe familie van videodiffusiemodellen die de voordelen van gemaskeerde auto-regressie (MAR) integreren in een verenigd diffusiemodel (DM) framework. Hier behandelt MAR de temporale planning, terwijl DM zich richt op ruimtelijke generatie in een asymmetrisch netwerkontwerp: i) een op MAR gebaseerd planningsmodel dat de meeste parameters bevat, genereert planningsignalen voor elk gemaskeerd frame met behulp van input met lage resolutie; ii) een lichtgewicht generatiemodel gebruikt deze signalen om hoogwaardige frames te produceren via diffusie-denoïsering. De MAR van MarDini maakt videogeneratie mogelijk die is geconditioneerd op elk aantal gemaskeerde frames op willekeurige frameposities: een enkel model kan videointerpolatie aanpakken (bijv. het maskeren van middelste frames), beeld-naar-video generatie (bijv. maskeren vanaf het tweede frame) en video-uitbreiding (bijv. maskeren van de helft van de frames). Het efficiënte ontwerp wijst het merendeel van de rekenbronnen toe aan het planningsmodel met lage resolutie, waardoor rekenintensieve maar belangrijke ruimtelijk-temporele aandacht op schaal haalbaar is. MarDini zet een nieuwe standaard voor videointerpolatie; ondertussen genereert het efficiënt video's van gelijke kwaliteit als die van veel duurdere geavanceerde beeld-naar-video modellen binnen enkele inferentiestappen.
English
We introduce MarDini, a new family of video diffusion models that integrate the advantages of masked auto-regression (MAR) into a unified diffusion model (DM) framework. Here, MAR handles temporal planning, while DM focuses on spatial generation in an asymmetric network design: i) a MAR-based planning model containing most of the parameters generates planning signals for each masked frame using low-resolution input; ii) a lightweight generation model uses these signals to produce high-resolution frames via diffusion de-noising. MarDini's MAR enables video generation conditioned on any number of masked frames at any frame positions: a single model can handle video interpolation (e.g., masking middle frames), image-to-video generation (e.g., masking from the second frame onward), and video expansion (e.g., masking half the frames). The efficient design allocates most of the computational resources to the low-resolution planning model, making computationally expensive but important spatio-temporal attention feasible at scale. MarDini sets a new state-of-the-art for video interpolation; meanwhile, within few inference steps, it efficiently generates videos on par with those of much more expensive advanced image-to-video models.

Summary

AI-Generated Summary

PDF212November 16, 2024