SlowFast-VGen: Langsam-Schnelles Lernen für Aktionsgesteuerte Lange Videogenerierung
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Autoren: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Zusammenfassung
Menschen sind mit einem ergänzenden Lernsystem ausgestattet, das das langsame Lernen allgemeiner Weltdynamiken mit der schnellen Speicherung episodischer Erinnerungen aus neuen Erfahrungen verbindet. Bisherige Modelle zur Videoerzeugung konzentrieren sich jedoch hauptsächlich auf das langsame Lernen durch Vortraining mit großen Datenmengen und vernachlässigen die schnelle Lernphase, die für die Speicherung episodischer Erinnerungen entscheidend ist. Diese Vernachlässigung führt zu Inkonsistenzen zwischen zeitlich entfernten Frames bei der Erzeugung längerer Videos, da diese Frames über das Kontextfenster des Modells hinausgehen. Zu diesem Zweck stellen wir SlowFast-VGen vor, ein neuartiges Dual-Speed-Lernsystem für die aktionsgesteuerte Erzeugung langer Videos. Unser Ansatz integriert ein maskiertes bedingtes Video-Diffusionsmodell für das langsame Lernen von Weltdynamiken sowie eine Inferenzzeit-Schnelllernstrategie, die auf einem temporalen LoRA-Modul basiert. Speziell aktualisiert der schnelle Lernprozess seine temporalen LoRA-Parameter basierend auf lokalen Eingaben und Ausgaben, wodurch episodische Erinnerungen effizient in seinen Parametern gespeichert werden. Wir schlagen außerdem einen Slow-Fast-Lernschleifenalgorithmus vor, der die innere Schnelllernschleife nahtlos in die äußere Langsam-Lernschleife integriert und so das Abrufen früherer multi-episodischer Erfahrungen für kontextbewusstes Fähigkeitenlernen ermöglicht. Um das langsame Lernen eines approximativen Weltmodells zu erleichtern, sammeln wir einen groß angelegten Datensatz von 200.000 Videos mit sprachlichen Aktionsannotationen, die eine Vielzahl von Szenarien abdecken. Umfangreiche Experimente zeigen, dass SlowFast-VGen Baselines in verschiedenen Metriken für die aktionsgesteuerte Videoerzeugung übertrifft, einen FVD-Score von 514 im Vergleich zu 782 erreicht und die Konsistenz in längeren Videos beibehält, mit durchschnittlich 0,37 Szenenwechseln gegenüber 0,89. Der Slow-Fast-Lernschleifenalgorithmus verbessert auch signifikant die Leistung bei langfristigen Planungsaufgaben. Projekthomepage: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary