SlowFast-VGen: 행동 중심 장기 비디오 생성을 위한 슬로우-패스트 학습

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

October 30, 2024
저자: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI

초록

인간은 보완적 학습 시스템을 갖고 있으며, 이는 일반적인 세계 역학의 느린 학습과 새로운 경험으로부터의 에피소드 기억의 빠른 저장을 연결합니다. 그러나 이전 비디오 생성 모델은 주로 방대한 양의 데이터를 사전 훈련하여 느린 학습에 초점을 맞추었으며, 에피소드 기억 저장에 중요한 빠른 학습 단계를 간과했습니다. 이러한 간과로 인해 더 긴 비디오를 생성할 때 시간적으로 먼 프레임에서 모델의 컨텍스트 창을 벗어나 일관성이 떨어지게 됩니다. 이에 우리는 액션 중심의 장비디오 생성을 위한 새로운 이중 속도 학습 시스템인 SlowFast-VGen을 소개합니다. 저희 접근 방식은 세계 역학의 느린 학습을 위해 마스크된 조건부 비디오 확산 모델을 통합하며, 시간 LoRA 모듈에 기반한 추론 시 빠른 학습 전략을 포함합니다. 구체적으로, 빠른 학습 프로세스는 지역 입력 및 출력을 기반으로 시간 LoRA 매개변수를 업데이트하여 효율적으로 에피소드 기억을 매개변수에 저장합니다. 또한 우리는 내부 빠른 학습 루프를 외부 느린 학습 루프에 매끄럽게 통합하여 컨텍스트 인식 기술 학습을 위해 이전 다중 에피소드 경험을 회상할 수 있는 느린-빠른 학습 루프 알고리즘을 제안합니다. 근사적 세계 모델의 느린 학습을 용이하게 하기 위해 우리는 다양한 시나리오를 다루는 200k개의 비디오와 언어 액션 주석을 포함한 대규모 데이터셋을 수집합니다. 광범위한 실험 결과는 SlowFast-VGen이 액션 중심 비디오 생성에 있어 다양한 메트릭에서 기존 기준을 능가하며, FVD 점수가 782에 비해 514로 달성하고, 평균 0.37 장면 전환 대비 0.89로 더 긴 비디오에서 일관성을 유지한다는 것을 보여줍니다. 또한 느린-빠른 학습 루프 알고리즘은 장기 계획 작업에서 성능을 크게 향상시킵니다. 프로젝트 웹사이트: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model's context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io

Summary

AI-Generated Summary

PDF73November 16, 2024