Het temmen van Teacher Forcing voor Gemaskeerde Autoregressieve Video Generatie
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Auteurs: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Samenvatting
We introduceren MAGI, een hybride video generatie framework dat gemaskerde modellering combineert voor intra-frame generatie met causale modellering voor volgende-frame generatie. Onze belangrijkste innovatie, Compleet Leerkracht Forceren (CTF), conditioneert gemaskerde frames op volledige observatie frames in plaats van gemaskerde frames (namelijk Gemaskerd Leerkracht Forceren, MTF), waardoor een soepele overgang mogelijk is van token-niveau (patch-niveau) naar frame-niveau autoregressieve generatie. CTF presteert aanzienlijk beter dan MTF, met een +23% verbetering in FVD-scores bij voorspelling van video's geconditioneerd op het eerste frame. Om problemen zoals blootstellingsbias aan te pakken, maken we gebruik van gerichte trainingsstrategieën, waarmee we een nieuwe benchmark stellen in autoregressieve video generatie. Experimenten tonen aan dat MAGI lange, coherente videosequenties kan genereren van meer dan 100 frames, zelfs wanneer getraind op slechts 16 frames, waarbij het potentieel voor schaalbare, hoogwaardige video generatie wordt benadrukt.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary