Het temmen van Teacher Forcing voor Gemaskeerde Autoregressieve Video Generatie

Taming Teacher Forcing for Masked Autoregressive Video Generation

January 21, 2025
Auteurs: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI

Samenvatting

We introduceren MAGI, een hybride video generatie framework dat gemaskerde modellering combineert voor intra-frame generatie met causale modellering voor volgende-frame generatie. Onze belangrijkste innovatie, Compleet Leerkracht Forceren (CTF), conditioneert gemaskerde frames op volledige observatie frames in plaats van gemaskerde frames (namelijk Gemaskerd Leerkracht Forceren, MTF), waardoor een soepele overgang mogelijk is van token-niveau (patch-niveau) naar frame-niveau autoregressieve generatie. CTF presteert aanzienlijk beter dan MTF, met een +23% verbetering in FVD-scores bij voorspelling van video's geconditioneerd op het eerste frame. Om problemen zoals blootstellingsbias aan te pakken, maken we gebruik van gerichte trainingsstrategieën, waarmee we een nieuwe benchmark stellen in autoregressieve video generatie. Experimenten tonen aan dat MAGI lange, coherente videosequenties kan genereren van meer dan 100 frames, zelfs wanneer getraind op slechts 16 frames, waarbij het potentieel voor schaalbare, hoogwaardige video generatie wordt benadrukt.
English
We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.

Summary

AI-Generated Summary

PDF102January 22, 2025