GenXD: 3D 및 4D 장면 생성

GenXD: Generating Any 3D and 4D Scenes

November 4, 2024
저자: Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang
cs.AI

초록

2D 시각 생성의 최근 발전은 놀랄 만큼 성공적이었습니다. 그러나 3D 및 4D 생성은 대규모 4D 데이터 부족과 효과적인 모델 설계로 인해 실제 응용 프로그램에서 여전히 어려움을 겪고 있습니다. 본 논문에서는 일상 생활에서 흔히 관찰되는 카메라 및 물체 이동을 활용하여 일반적인 3D 및 4D 생성을 공동으로 조사하는 것을 제안합니다. 커뮤니티에서 실제 세계 4D 데이터가 부족하기 때문에 먼저 비디오에서 카메라 포즈와 물체 이동 강도를 얻기 위한 데이터 정제 파이프라인을 제안합니다. 이 파이프라인을 기반으로 대규모 실제 세계 4D 씬 데이터 세트인 CamVid-30K를 소개합니다. 3D 및 4D 데이터를 활용하여 GenXD 프레임워크를 개발하여 임의의 3D 또는 4D 씬을 생성할 수 있습니다. 우리는 카메라 및 물체 이동을 분리하여 학습할 수 있도록 하는 다중뷰-시간 모듈을 제안하며, GenXD는 다양한 조건부 뷰를 지원하기 위해 마스크된 잠재 조건을 사용합니다. GenXD는 카메라 궤적을 따르는 비디오 및 3D 표현으로 변환할 수 있는 일관된 3D 뷰를 생성할 수 있습니다. 우리는 다양한 실제 세계 및 합성 데이터 세트를 통해 GenXD의 효과성과 다양성을 이전의 3D 및 4D 생성 방법과 비교하여 상세하게 평가합니다.
English
Recent developments in 2D visual generation have been remarkably successful. However, 3D and 4D generation remain challenging in real-world applications due to the lack of large-scale 4D data and effective model design. In this paper, we propose to jointly investigate general 3D and 4D generation by leveraging camera and object movements commonly observed in daily life. Due to the lack of real-world 4D data in the community, we first propose a data curation pipeline to obtain camera poses and object motion strength from videos. Based on this pipeline, we introduce a large-scale real-world 4D scene dataset: CamVid-30K. By leveraging all the 3D and 4D data, we develop our framework, GenXD, which allows us to produce any 3D or 4D scene. We propose multiview-temporal modules, which disentangle camera and object movements, to seamlessly learn from both 3D and 4D data. Additionally, GenXD employs masked latent conditions to support a variety of conditioning views. GenXD can generate videos that follow the camera trajectory as well as consistent 3D views that can be lifted into 3D representations. We perform extensive evaluations across various real-world and synthetic datasets, demonstrating GenXD's effectiveness and versatility compared to previous methods in 3D and 4D generation.

Summary

AI-Generated Summary

PDF201November 13, 2024