다중 뷰 기하 확산을 이용한 제로샷 소설적 시점 및 깊이 합성
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
저자: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
초록
희소한 포즈 이미지로부터의 3D 장면 재구성을 위한 현재 방법은 신경장, 복셀 그리드 또는 3D 가우시안과 같은 중간 3D 표현을 활용하여 다중 뷰 일관된 장면 외관과 기하학을 달성합니다. 본 논문에서는 임의의 입력 뷰의 이미지 및 깊이 맵을 직접 픽셀 수준에서 생성할 수 있는 확산 기반 아키텍처인 MVGD를 소개합니다. 우리의 방법은 레이맵 조건부를 사용하여 시각적 특징을 다양한 시점의 공간 정보로 보강하고, 또한 새로운 시점에서의 이미지 및 깊이 맵 생성을 안내합니다. 우리 접근법의 중요한 측면은 이미지 및 깊이 맵의 다중 작업 생성으로, 학습 가능한 작업 임베딩을 사용하여 확산 프로세스를 특정 모달리티로 안내합니다. 우리는 이 모델을 공개 데이터셋의 6천만 개 이상의 다중 뷰 샘플 컬렉션에서 훈련하고, 이러한 다양한 조건에서 효율적이고 일관된 학습을 가능하게 하는 기술을 제안합니다. 또한 더 큰 모델의 효율적인 훈련을 가능하게 하는 새로운 전략을 제안하며, 작은 모델을 점진적으로 세밀하게 조정함으로써 유망한 스케일링 행동을 보고합니다. 광범위한 실험을 통해, 우리는 새로운 뷰 합성 벤치마크 및 다중 뷰 스테레오 및 비디오 깊이 추정에서 최첨단 결과를 보고합니다.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary