Die Bändigung des Lehrerzwangs für die maskierte autoregressive Videogenerierung.
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Autoren: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Zusammenfassung
Wir stellen MAGI vor, ein hybrides Video-Generierungs-Framework, das maskiertes Modellieren für die Intra-Frame-Generierung mit kausalem Modellieren für die Generierung des nächsten Frames kombiniert. Unsere Schlüsselinnovation, das "Complete Teacher Forcing" (CTF), bedingt maskierte Frames anhand vollständiger Beobachtungsframes anstelle von maskierten (genauer gesagt Masked Teacher Forcing, MTF), was einen reibungslosen Übergang von der Token-Ebene (Patch-Ebene) zur Frame-Ebene bei der autoregressiven Generierung ermöglicht. CTF übertrifft MTF signifikant und erzielt eine Verbesserung der FVD-Werte um +23% bei der Vorhersage von Videos, die vom ersten Frame abhängig sind. Um Probleme wie Belichtungsvoreingenommenheit anzugehen, verwenden wir gezielte Trainingsstrategien und setzen damit einen neuen Maßstab bei der autoregressiven Video-Generierung. Experimente zeigen, dass MAGI lange, kohärente Videosequenzen von über 100 Frames generieren kann, selbst wenn es nur auf 16 Frames trainiert wird, was sein Potenzial für eine skalierbare, hochwertige Video-Generierung unterstreicht.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary