마스크된 자기회귀 비디오 생성을 위한 교사 강요 억제하기
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
저자: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
초록
우리는 MAGI를 소개합니다. MAGI는 intra-frame 생성을 위한 마스크 모델링과 next-frame 생성을 위한 인과 모델링을 결합한 하이브리드 비디오 생성 프레임워크입니다. 우리의 주요 혁신인 Complete Teacher Forcing (CTF)은 마스크된 프레임을 마스크된 것이 아닌 완전한 관찰 프레임에 조건을 걸어주는 것(Masked Teacher Forcing, MTF)으로, 토큰 수준(패치 수준)에서부터 프레임 수준의 자기 회귀 생성으로의 부드러운 전환을 가능하게 합니다. CTF는 MTF를 크게 능가하여, 첫 번째 프레임 조건화 비디오 예측에서 FVD 점수에서 +23%의 개선을 달성합니다. 노출 편향과 같은 문제를 해결하기 위해 우리는 목표 지향적인 훈련 전략을 채택하여, 자기 회귀 비디오 생성에서 새로운 기준을 설정합니다. 실험 결과, MAGI는 16프레임만 훈련되어도 100프레임을 초과하는 긴, 일관된 비디오 시퀀스를 생성할 수 있음을 보여주며, 확장 가능하고 고품질의 비디오 생성 가능성을 강조합니다.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary