EgoVid-5M: Un dataset di azioni video su larga scala per la generazione di video egocentrici.
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation
November 13, 2024
Autori: Xiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
cs.AI
Abstract
La generazione di video si è affermata come uno strumento promettente per la simulazione del mondo, sfruttando dati visivi per replicare ambienti del mondo reale. In questo contesto, la generazione di video egocentrici, che si concentra sulla prospettiva umana, ha un significativo potenziale per migliorare le applicazioni nella realtà virtuale, realtà aumentata e nei videogiochi. Tuttavia, la generazione di video egocentrici presenta notevoli sfide a causa della natura dinamica dei punti di vista egocentrici, della complessa diversità delle azioni e della varietà complessa delle scene incontrate. I dataset esistenti non sono adeguati per affrontare efficacemente queste sfide. Per colmare questa lacuna, presentiamo EgoVid-5M, il primo dataset di alta qualità appositamente curato per la generazione di video egocentrici. EgoVid-5M comprende 5 milioni di clip video egocentriche ed è arricchito con dettagliate annotazioni sulle azioni, inclusi controlli cinematici dettagliati e descrizioni testuali di alto livello. Per garantire l'integrità e l'utilizzabilità del dataset, implementiamo un sofisticato processo di pulizia dei dati progettato per mantenere la coerenza dei frame, la coerenza delle azioni e la fluidità del movimento nelle condizioni egocentriche. Inoltre, presentiamo EgoDreamer, in grado di generare video egocentrici guidati contemporaneamente da descrizioni delle azioni e segnali di controllo cinematico. Il dataset EgoVid-5M, le relative annotazioni sulle azioni e tutti i metadati di pulizia dei dati saranno resi disponibili per l'avanzamento della ricerca nella generazione di video egocentrici.
English
Video generation has emerged as a promising tool for world simulation,
leveraging visual data to replicate real-world environments. Within this
context, egocentric video generation, which centers on the human perspective,
holds significant potential for enhancing applications in virtual reality,
augmented reality, and gaming. However, the generation of egocentric videos
presents substantial challenges due to the dynamic nature of egocentric
viewpoints, the intricate diversity of actions, and the complex variety of
scenes encountered. Existing datasets are inadequate for addressing these
challenges effectively. To bridge this gap, we present EgoVid-5M, the first
high-quality dataset specifically curated for egocentric video generation.
EgoVid-5M encompasses 5 million egocentric video clips and is enriched with
detailed action annotations, including fine-grained kinematic control and
high-level textual descriptions. To ensure the integrity and usability of the
dataset, we implement a sophisticated data cleaning pipeline designed to
maintain frame consistency, action coherence, and motion smoothness under
egocentric conditions. Furthermore, we introduce EgoDreamer, which is capable
of generating egocentric videos driven simultaneously by action descriptions
and kinematic control signals. The EgoVid-5M dataset, associated action
annotations, and all data cleansing metadata will be released for the
advancement of research in egocentric video generation.Summary
AI-Generated Summary