EgoVid-5M: Un dataset di azioni video su larga scala per la generazione di video egocentrici.

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

November 13, 2024
Autori: Xiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
cs.AI

Abstract

La generazione di video si è affermata come uno strumento promettente per la simulazione del mondo, sfruttando dati visivi per replicare ambienti del mondo reale. In questo contesto, la generazione di video egocentrici, che si concentra sulla prospettiva umana, ha un significativo potenziale per migliorare le applicazioni nella realtà virtuale, realtà aumentata e nei videogiochi. Tuttavia, la generazione di video egocentrici presenta notevoli sfide a causa della natura dinamica dei punti di vista egocentrici, della complessa diversità delle azioni e della varietà complessa delle scene incontrate. I dataset esistenti non sono adeguati per affrontare efficacemente queste sfide. Per colmare questa lacuna, presentiamo EgoVid-5M, il primo dataset di alta qualità appositamente curato per la generazione di video egocentrici. EgoVid-5M comprende 5 milioni di clip video egocentriche ed è arricchito con dettagliate annotazioni sulle azioni, inclusi controlli cinematici dettagliati e descrizioni testuali di alto livello. Per garantire l'integrità e l'utilizzabilità del dataset, implementiamo un sofisticato processo di pulizia dei dati progettato per mantenere la coerenza dei frame, la coerenza delle azioni e la fluidità del movimento nelle condizioni egocentriche. Inoltre, presentiamo EgoDreamer, in grado di generare video egocentrici guidati contemporaneamente da descrizioni delle azioni e segnali di controllo cinematico. Il dataset EgoVid-5M, le relative annotazioni sulle azioni e tutti i metadati di pulizia dei dati saranno resi disponibili per l'avanzamento della ricerca nella generazione di video egocentrici.
English
Video generation has emerged as a promising tool for world simulation, leveraging visual data to replicate real-world environments. Within this context, egocentric video generation, which centers on the human perspective, holds significant potential for enhancing applications in virtual reality, augmented reality, and gaming. However, the generation of egocentric videos presents substantial challenges due to the dynamic nature of egocentric viewpoints, the intricate diversity of actions, and the complex variety of scenes encountered. Existing datasets are inadequate for addressing these challenges effectively. To bridge this gap, we present EgoVid-5M, the first high-quality dataset specifically curated for egocentric video generation. EgoVid-5M encompasses 5 million egocentric video clips and is enriched with detailed action annotations, including fine-grained kinematic control and high-level textual descriptions. To ensure the integrity and usability of the dataset, we implement a sophisticated data cleaning pipeline designed to maintain frame consistency, action coherence, and motion smoothness under egocentric conditions. Furthermore, we introduce EgoDreamer, which is capable of generating egocentric videos driven simultaneously by action descriptions and kinematic control signals. The EgoVid-5M dataset, associated action annotations, and all data cleansing metadata will be released for the advancement of research in egocentric video generation.

Summary

AI-Generated Summary

PDF243November 14, 2024