SlowFast-VGen : Apprentissage Lent-Rapide pour la Génération de Longues Vidéos Axées sur l'Action
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Auteurs: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Résumé
Les êtres humains sont dotés d'un système d'apprentissage complémentaire, qui comble le fossé entre l'apprentissage lent des dynamiques mondiales générales et le stockage rapide de la mémoire épisodique issue d'une nouvelle expérience. Cependant, les modèles précédents de génération de vidéos se concentrent principalement sur l'apprentissage lent en se pré-entraînant sur de vastes quantités de données, négligeant la phase d'apprentissage rapide cruciale pour le stockage de la mémoire épisodique. Cette lacune entraîne des incohérences entre les trames temporellement éloignées lors de la génération de vidéos plus longues, car ces trames se situent au-delà de la fenêtre de contexte du modèle. À cette fin, nous présentons SlowFast-VGen, un nouveau système d'apprentissage à double vitesse pour la génération de vidéos longues axées sur l'action. Notre approche intègre un modèle de diffusion vidéo conditionnelle masquée pour l'apprentissage lent des dynamiques mondiales, ainsi qu'une stratégie d'apprentissage rapide basée sur un module temporel LoRA au moment de l'inférence. Plus précisément, le processus d'apprentissage rapide met à jour ses paramètres temporels LoRA en fonction des entrées et sorties locales, stockant ainsi efficacement la mémoire épisodique dans ses paramètres. Nous proposons en outre un algorithme de boucle d'apprentissage lent-rapide qui intègre de manière transparente la boucle d'apprentissage rapide interne dans la boucle d'apprentissage lent externe, permettant le rappel des expériences multi-épisodes antérieures pour un apprentissage de compétences conscient du contexte. Pour faciliter l'apprentissage lent d'un modèle mondial approximatif, nous collectons un ensemble de données à grande échelle de 200 000 vidéos avec des annotations d'actions en langage, couvrant un large éventail de scénarios. Des expériences approfondies montrent que SlowFast-VGen surpasse les références sur diverses mesures pour la génération de vidéos axée sur l'action, atteignant un score FVD de 514 par rapport à 782, et maintenant une cohérence dans les vidéos plus longues, avec en moyenne 0,37 coupures de scène contre 0,89. L'algorithme de boucle d'apprentissage lent-rapide améliore significativement les performances sur les tâches de planification à long terme également. Site Web du Projet : https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary