EgoVid-5M: 에고센트릭 비디오 생성을 위한 대규모 비디오-액션 데이터셋
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation
November 13, 2024
저자: Xiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
cs.AI
초록
비디오 생성은 시각적 데이터를 활용하여 실제 환경을 복제하는 유망한 도구로 부상했다. 이 맥락에서 인간 시각을 중심으로 한 자아중심 비디오 생성은 가상 현실, 증강 현실 및 게임 분야의 응용 프로그램을 향상시키는 데 상당한 잠재력을 가지고 있다. 그러나 자아중심 비디오 생성은 자아중심 시점의 동적 성격, 복잡한 다양한 행동 및 다양한 장면에 따른 상당한 어려움을 겪고 있다. 기존 데이터셋은 이러한 문제를 효과적으로 해결하기에는 부족하다. 이 간극을 메우기 위해 우리는 자아중심 비디오 생성을 위해 특별히 선별된 첫 번째 고품질 데이터셋인 EgoVid-5M을 제시한다. EgoVid-5M은 500만 개의 자아중심 비디오 클립을 포함하며, 세밀한 운동 제어와 고수준의 텍스트 설명을 포함한 상세한 행동 주석으로 보강되어 있다. 데이터셋의 무결성과 사용 가능성을 보장하기 위해 자아중심 조건 하에서 프레임 일관성, 행동 일관성 및 움직임 부드러움을 유지하기 위해 설계된 정교한 데이터 정리 파이프라인을 구현했다. 더불어, 우리는 행동 설명과 운동 제어 신호에 의해 동시에 주도되는 자아중심 비디오를 생성할 수 있는 EgoDreamer를 소개한다. EgoVid-5M 데이터셋, 관련 행동 주석 및 모든 데이터 정리 메타데이터는 자아중심 비디오 생성 연구의 발전을 위해 공개될 것이다.
English
Video generation has emerged as a promising tool for world simulation,
leveraging visual data to replicate real-world environments. Within this
context, egocentric video generation, which centers on the human perspective,
holds significant potential for enhancing applications in virtual reality,
augmented reality, and gaming. However, the generation of egocentric videos
presents substantial challenges due to the dynamic nature of egocentric
viewpoints, the intricate diversity of actions, and the complex variety of
scenes encountered. Existing datasets are inadequate for addressing these
challenges effectively. To bridge this gap, we present EgoVid-5M, the first
high-quality dataset specifically curated for egocentric video generation.
EgoVid-5M encompasses 5 million egocentric video clips and is enriched with
detailed action annotations, including fine-grained kinematic control and
high-level textual descriptions. To ensure the integrity and usability of the
dataset, we implement a sophisticated data cleaning pipeline designed to
maintain frame consistency, action coherence, and motion smoothness under
egocentric conditions. Furthermore, we introduce EgoDreamer, which is capable
of generating egocentric videos driven simultaneously by action descriptions
and kinematic control signals. The EgoVid-5M dataset, associated action
annotations, and all data cleansing metadata will be released for the
advancement of research in egocentric video generation.Summary
AI-Generated Summary