SlowFast-VGen: Langzaam-Snel Leren voor Actiegedreven Lange Video Generatie
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Auteurs: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Samenvatting
Mensen zijn begiftigd met een aanvullend leersysteem, dat het trage leren van algemene wereldwijde dynamiek verbindt met de snelle opslag van episodisch geheugen van een nieuwe ervaring. Eerdere modellen voor videogeneratie richten zich echter voornamelijk op traag leren door vooraf te trainen op grote hoeveelheden gegevens, waarbij de snelle leermomenten die cruciaal zijn voor de opslag van episodisch geheugen over het hoofd worden gezien. Deze omissie leidt tot inconsistenties tussen temporale verre frames bij het genereren van langere video's, omdat deze frames buiten het contextvenster van het model vallen. Daartoe introduceren we SlowFast-VGen, een nieuw dual-speed leersysteem voor op actie gebaseerde lange videogeneratie. Onze aanpak omvat een gemaskeerd conditioneel video-diffusiemodel voor het trage leren van wereldwijde dynamiek, samen met een snelle leermethode op basis van een tijdelijke LoRA-module tijdens de inferentietijd. Specifiek werkt het snelle leerproces zijn tijdelijke LoRA-parameters bij op basis van lokale invoer en uitvoer, waardoor episodisch geheugen efficiënt wordt opgeslagen in zijn parameters. We stellen verder een langzaam-snel leeralgoritme voor dat de innerlijke snelle leercyclus naadloos integreert in de uiterlijke trage leercyclus, waardoor het terughalen van eerdere multi-episode-ervaringen voor contextbewust vaardigheidsleren mogelijk wordt. Om het trage leren van een benaderend wereldmodel te vergemakkelijken, verzamelen we een grootschalige dataset van 200k video's met taalactie-annotaties, die een breed scala aan scenario's bestrijken. Uitgebreide experimenten tonen aan dat SlowFast-VGen beter presteert dan baselines over verschillende metingen voor op actie gebaseerde videogeneratie, met een FVD-score van 514 in vergelijking met 782, en consistentie behoudt in langere video's, met een gemiddelde van 0,37 scènewisselingen versus 0,89. Het langzaam-snelle leeralgoritme verbetert ook aanzienlijk de prestaties bij langetermijnplanningstaken. Projectwebsite: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary