EgoVid-5M : un ensemble de données vidéo-action à grande échelle pour la génération de vidéos égocentriques
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation
November 13, 2024
Auteurs: Xiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
cs.AI
Résumé
La génération de vidéos est apparue comme un outil prometteur pour la simulation du monde, exploitant des données visuelles pour reproduire des environnements réels. Dans ce contexte, la génération de vidéos égocentriques, qui se concentre sur la perspective humaine, présente un potentiel significatif pour améliorer les applications en réalité virtuelle, réalité augmentée et jeux vidéo. Cependant, la génération de vidéos égocentriques présente des défis substantiels en raison de la nature dynamique des points de vue égocentriques, de la diversité complexe des actions et de la variété complexe des scènes rencontrées. Les ensembles de données existants sont insuffisants pour relever efficacement ces défis. Pour combler cette lacune, nous présentons EgoVid-5M, le premier ensemble de données de haute qualité spécifiquement conçu pour la génération de vidéos égocentriques. EgoVid-5M comprend 5 millions de clips vidéo égocentriques et est enrichi d'annotations d'actions détaillées, comprenant un contrôle cinématique détaillé et des descriptions textuelles de haut niveau. Pour garantir l'intégrité et la facilité d'utilisation de l'ensemble de données, nous mettons en œuvre un pipeline sophistiqué de nettoyage des données conçu pour maintenir la cohérence des images, la cohérence des actions et la fluidité des mouvements dans des conditions égocentriques. De plus, nous introduisons EgoDreamer, capable de générer des vidéos égocentriques entraînées simultanément par des descriptions d'actions et des signaux de contrôle cinématique. L'ensemble de données EgoVid-5M, les annotations d'actions associées et toutes les métadonnées de nettoyage des données seront publiés pour faire progresser la recherche en génération de vidéos égocentriques.
English
Video generation has emerged as a promising tool for world simulation,
leveraging visual data to replicate real-world environments. Within this
context, egocentric video generation, which centers on the human perspective,
holds significant potential for enhancing applications in virtual reality,
augmented reality, and gaming. However, the generation of egocentric videos
presents substantial challenges due to the dynamic nature of egocentric
viewpoints, the intricate diversity of actions, and the complex variety of
scenes encountered. Existing datasets are inadequate for addressing these
challenges effectively. To bridge this gap, we present EgoVid-5M, the first
high-quality dataset specifically curated for egocentric video generation.
EgoVid-5M encompasses 5 million egocentric video clips and is enriched with
detailed action annotations, including fine-grained kinematic control and
high-level textual descriptions. To ensure the integrity and usability of the
dataset, we implement a sophisticated data cleaning pipeline designed to
maintain frame consistency, action coherence, and motion smoothness under
egocentric conditions. Furthermore, we introduce EgoDreamer, which is capable
of generating egocentric videos driven simultaneously by action descriptions
and kinematic control signals. The EgoVid-5M dataset, associated action
annotations, and all data cleansing metadata will be released for the
advancement of research in egocentric video generation.Summary
AI-Generated Summary