역사 지침에 따른 비디오 확산
History-Guided Video Diffusion
February 10, 2025
저자: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI
초록
분류기 없는 가이던스 (CFG)는 확산 모델에서 조건부 생성을 개선하는 핵심 기술로, 더 정확한 제어와 샘플 품질 향상을 가능하게 합니다. 이 기술을 비디오 확산에 확장하는 것은 자연스러운데, 이는 변수 길이의 컨텍스트 프레임으로 조건부 비디오를 생성하는 것을 의미합니다. 그러나, 변수 길이의 히스토리로 가이드하는 데 두 가지 주요 도전점을 발견했습니다: 고정 크기의 조건부만 지원하는 아키텍처와 CFG 스타일의 히스토리 드롭아웃이 성능이 나쁘다는 경험적 관찰입니다. 이를 해결하기 위해 우리는 Diffusion Forcing Transformer (DFoT)을 제안합니다. 이는 유연한 수의 히스토리 프레임에 대한 조건부를 함께 가능하게 하는 비디오 확산 아키텍처와 이론적으로 기반을 둔 훈련 목표입니다. 그런 다음 DFoT에 의해 독특하게 가능해진 일련의 가이드 방법인 히스토리 가이던스를 소개합니다. 가장 간단한 형태인 바닐라 히스토리 가이던스조차도 이미 비디오 생성 품질과 시간적 일관성을 크게 향상시킨다는 것을 보여줍니다. 더 발전된 방법인 시간 및 주파수를 통한 히스토리 가이던스는 더 나아가 움직임 역학을 더 향상시키며, 분포 밖의 히스토리에 대한 구성적 일반화를 가능하게 하고, 극도로 긴 비디오를 안정적으로 생성할 수 있습니다. 웹사이트: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional
generation in diffusion models, enabling more accurate control while enhancing
sample quality. It is natural to extend this technique to video diffusion,
which generates video conditioned on a variable number of context frames,
collectively referred to as history. However, we find two key challenges to
guiding with variable-length history: architectures that only support
fixed-size conditioning, and the empirical observation that CFG-style history
dropout performs poorly. To address this, we propose the Diffusion Forcing
Transformer (DFoT), a video diffusion architecture and theoretically grounded
training objective that jointly enable conditioning on a flexible number of
history frames. We then introduce History Guidance, a family of guidance
methods uniquely enabled by DFoT. We show that its simplest form, vanilla
history guidance, already significantly improves video generation quality and
temporal consistency. A more advanced method, history guidance across time and
frequency further enhances motion dynamics, enables compositional
generalization to out-of-distribution history, and can stably roll out
extremely long videos. Website: https://boyuan.space/history-guidanceSummary
AI-Generated Summary