SlowFast-VGen: Langsam-Schnelles Lernen für Aktionsgesteuerte Lange Videogenerierung

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

October 30, 2024
Autoren: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI

Zusammenfassung

Menschen sind mit einem ergänzenden Lernsystem ausgestattet, das das langsame Lernen allgemeiner Weltdynamiken mit der schnellen Speicherung episodischer Erinnerungen aus neuen Erfahrungen verbindet. Bisherige Modelle zur Videoerzeugung konzentrieren sich jedoch hauptsächlich auf das langsame Lernen durch Vortraining mit großen Datenmengen und vernachlässigen die schnelle Lernphase, die für die Speicherung episodischer Erinnerungen entscheidend ist. Diese Vernachlässigung führt zu Inkonsistenzen zwischen zeitlich entfernten Frames bei der Erzeugung längerer Videos, da diese Frames über das Kontextfenster des Modells hinausgehen. Zu diesem Zweck stellen wir SlowFast-VGen vor, ein neuartiges Dual-Speed-Lernsystem für die aktionsgesteuerte Erzeugung langer Videos. Unser Ansatz integriert ein maskiertes bedingtes Video-Diffusionsmodell für das langsame Lernen von Weltdynamiken sowie eine Inferenzzeit-Schnelllernstrategie, die auf einem temporalen LoRA-Modul basiert. Speziell aktualisiert der schnelle Lernprozess seine temporalen LoRA-Parameter basierend auf lokalen Eingaben und Ausgaben, wodurch episodische Erinnerungen effizient in seinen Parametern gespeichert werden. Wir schlagen außerdem einen Slow-Fast-Lernschleifenalgorithmus vor, der die innere Schnelllernschleife nahtlos in die äußere Langsam-Lernschleife integriert und so das Abrufen früherer multi-episodischer Erfahrungen für kontextbewusstes Fähigkeitenlernen ermöglicht. Um das langsame Lernen eines approximativen Weltmodells zu erleichtern, sammeln wir einen groß angelegten Datensatz von 200.000 Videos mit sprachlichen Aktionsannotationen, die eine Vielzahl von Szenarien abdecken. Umfangreiche Experimente zeigen, dass SlowFast-VGen Baselines in verschiedenen Metriken für die aktionsgesteuerte Videoerzeugung übertrifft, einen FVD-Score von 514 im Vergleich zu 782 erreicht und die Konsistenz in längeren Videos beibehält, mit durchschnittlich 0,37 Szenenwechseln gegenüber 0,89. Der Slow-Fast-Lernschleifenalgorithmus verbessert auch signifikant die Leistung bei langfristigen Planungsaufgaben. Projekthomepage: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model's context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io

Summary

AI-Generated Summary

PDF73November 16, 2024