SlowFast-VGen: Apprendimento Slow-Fast per la Generazione di Video Lunghi Guidati dall'Azione

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

October 30, 2024
Autori: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI

Abstract

Gli esseri umani sono dotati di un sistema di apprendimento complementare, che collega l'apprendimento lento delle dinamiche del mondo generale con la rapida memorizzazione della memoria episodica di una nuova esperienza. Tuttavia, i modelli precedenti di generazione video si concentrano principalmente sull'apprendimento lento mediante il pre-addestramento su vaste quantità di dati, trascurando la fase di apprendimento rapido cruciale per la memorizzazione della memoria episodica. Questa mancanza porta a incongruenze tra frame temporalmente distanti durante la generazione di video più lunghi, poiché questi frame cadono al di fuori della finestra di contesto del modello. A tal fine, presentiamo SlowFast-VGen, un nuovo sistema di apprendimento a doppia velocità per la generazione di video lunghi basati sull'azione. Il nostro approccio incorpora un modello di diffusione video condizionale mascherato per l'apprendimento lento delle dinamiche del mondo, insieme a una strategia di apprendimento rapido basata su un modulo temporale LoRA al momento dell'inferenza. In particolare, il processo di apprendimento rapido aggiorna i suoi parametri temporali LoRA in base agli input e output locali, memorizzando efficientemente la memoria episodica nei suoi parametri. Proponiamo inoltre un algoritmo di ciclo di apprendimento lento-rapido che integra senza soluzione di continuità il ciclo di apprendimento rapido interno nel ciclo di apprendimento lento esterno, consentendo il richiamo di esperienze multi-episodiche precedenti per l'apprendimento di abilità consapevoli del contesto. Per facilitare l'apprendimento lento di un modello approssimativo del mondo, raccogliamo un dataset su larga scala di 200k video con annotazioni di azioni linguistiche, che coprono una vasta gamma di scenari. Gli esperimenti estesi mostrano che SlowFast-VGen supera i modelli di riferimento su vari metriche per la generazione di video basata sull'azione, raggiungendo un punteggio FVD di 514 rispetto a 782, e mantenendo la coerenza nei video più lunghi, con una media di 0,37 tagli di scena rispetto a 0,89. L'algoritmo di ciclo di apprendimento lento-rapido migliora significativamente le prestazioni su compiti di pianificazione a lungo termine. Sito Web del Progetto: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model's context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io

Summary

AI-Generated Summary

PDF93November 16, 2024