SlowFast-VGen: Apprendimento Slow-Fast per la Generazione di Video Lunghi Guidati dall'Azione
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Autori: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Abstract
Gli esseri umani sono dotati di un sistema di apprendimento complementare, che collega l'apprendimento lento delle dinamiche del mondo generale con la rapida memorizzazione della memoria episodica di una nuova esperienza. Tuttavia, i modelli precedenti di generazione video si concentrano principalmente sull'apprendimento lento mediante il pre-addestramento su vaste quantità di dati, trascurando la fase di apprendimento rapido cruciale per la memorizzazione della memoria episodica. Questa mancanza porta a incongruenze tra frame temporalmente distanti durante la generazione di video più lunghi, poiché questi frame cadono al di fuori della finestra di contesto del modello. A tal fine, presentiamo SlowFast-VGen, un nuovo sistema di apprendimento a doppia velocità per la generazione di video lunghi basati sull'azione. Il nostro approccio incorpora un modello di diffusione video condizionale mascherato per l'apprendimento lento delle dinamiche del mondo, insieme a una strategia di apprendimento rapido basata su un modulo temporale LoRA al momento dell'inferenza. In particolare, il processo di apprendimento rapido aggiorna i suoi parametri temporali LoRA in base agli input e output locali, memorizzando efficientemente la memoria episodica nei suoi parametri. Proponiamo inoltre un algoritmo di ciclo di apprendimento lento-rapido che integra senza soluzione di continuità il ciclo di apprendimento rapido interno nel ciclo di apprendimento lento esterno, consentendo il richiamo di esperienze multi-episodiche precedenti per l'apprendimento di abilità consapevoli del contesto. Per facilitare l'apprendimento lento di un modello approssimativo del mondo, raccogliamo un dataset su larga scala di 200k video con annotazioni di azioni linguistiche, che coprono una vasta gamma di scenari. Gli esperimenti estesi mostrano che SlowFast-VGen supera i modelli di riferimento su vari metriche per la generazione di video basata sull'azione, raggiungendo un punteggio FVD di 514 rispetto a 782, e mantenendo la coerenza nei video più lunghi, con una media di 0,37 tagli di scena rispetto a 0,89. L'algoritmo di ciclo di apprendimento lento-rapido migliora significativamente le prestazioni su compiti di pianificazione a lungo termine. Sito Web del Progetto: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary