당신이 보면, 당신이 얻는다: 규모의 자유 자세 비디오에서 3D 생성 학습
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale
December 9, 2024
저자: Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang
cs.AI
초록
최근의 3D 생성 모델들은 일반적으로 3D 콘텐츠 생성을 위해 제한된 규모의 3D '골드 레이블' 또는 2D 확산 사전에 의존합니다. 그러나 확장 가능한 학습 패러다임의 부재로 인해 제한된 3D 사전에 의해 상한이 정해지는 성능을 보입니다. 본 연구에서는 대규모 인터넷 비디오에서 훈련된 시각 조건부 다중 뷰 확산 모델인 See3D를 제안합니다. 이 모델은 오픈 월드 3D 생성을 위해 대규모 인터넷 비디오에서 시각적 콘텐츠만을 보고 3D 지식을 습득하는 것을 목표로 합니다. 이를 달성하기 위해, 우리는 먼저 제안된 데이터 선별 파이프라인을 사용하여 훈련 데이터를 확장합니다. 이 파이프라인은 원본 비디오에서 다중 뷰 불일치와 부족한 관측을 자동으로 걸러내어 고품질, 다양하고 대규모의 다중 뷰 이미지 데이터셋인 WebVi3D를 생성합니다. 그러나 명시적인 3D 기하학이나 카메라 포즈 주석 없이 비디오로부터 일반적인 3D 사전을 학습하는 것은 어려우며, 웹 규모 비디오에 포즈를 주석하는 것은 경제적으로 부담스럽습니다. 포즈 조건을 제거하기 위해, 우리는 시간에 따라 변하는 노이즈를 마스킹된 비디오 데이터에 추가하여 생성된 순수한 2D 유도 시각 신호를 도입합니다. 마지막으로, 우리는 See3D를 고품질 3D 생성을 위한 와핑 기반 파이프라인에 통합하여 새로운 시각 조건부 3D 생성 프레임워크를 소개합니다. 저렴하고 확장 가능한 비디오 데이터로 훈련된 See3D는 유의미한 제로샷 및 오픈 월드 생성 능력을 달성하며, 비용이 많이 들고 제한적인 3D 데이터셋으로 훈련된 모델들을 현저히 능가하는 것을 수치 및 시각적 비교를 통해 보여줍니다. 자세한 내용은 다음 프로젝트 페이지를 참조하십시오: https://vision.baai.ac.cn/see3d
English
Recent 3D generation models typically rely on limited-scale 3D `gold-labels'
or 2D diffusion priors for 3D content creation. However, their performance is
upper-bounded by constrained 3D priors due to the lack of scalable learning
paradigms. In this work, we present See3D, a visual-conditional multi-view
diffusion model trained on large-scale Internet videos for open-world 3D
creation. The model aims to Get 3D knowledge by solely Seeing the visual
contents from the vast and rapidly growing video data -- You See it, You Got
it. To achieve this, we first scale up the training data using a proposed data
curation pipeline that automatically filters out multi-view inconsistencies and
insufficient observations from source videos. This results in a high-quality,
richly diverse, large-scale dataset of multi-view images, termed WebVi3D,
containing 320M frames from 16M video clips. Nevertheless, learning generic 3D
priors from videos without explicit 3D geometry or camera pose annotations is
nontrivial, and annotating poses for web-scale videos is prohibitively
expensive. To eliminate the need for pose conditions, we introduce an
innovative visual-condition - a purely 2D-inductive visual signal generated by
adding time-dependent noise to the masked video data. Finally, we introduce a
novel visual-conditional 3D generation framework by integrating See3D into a
warping-based pipeline for high-fidelity 3D generation. Our numerical and
visual comparisons on single and sparse reconstruction benchmarks show that
See3D, trained on cost-effective and scalable video data, achieves notable
zero-shot and open-world generation capabilities, markedly outperforming models
trained on costly and constrained 3D datasets. Please refer to our project page
at: https://vision.baai.ac.cn/see3dSummary
AI-Generated Summary