FreeSplatter: 희소한 뷰 3D 재구성을 위한 자세-자유 가우시안 스플래팅
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
저자: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
초록
기존의 희소 뷰 재구성 모델은 정확한 알려진 카메라 포즈에 크게 의존합니다. 그러나 희소한 뷰 이미지에서 카메라 외부 및 내부 파라미터를 유도하는 것은 상당한 어려움을 겪습니다. 본 연구에서는 미국에서 FreeSplatter를 제시합니다. 이는 고도로 확장 가능한 피드포워드 재구성 프레임워크로, 교정되지 않은 희소한 뷰 이미지에서 고품질의 3D 가우시안을 생성하고 그들의 카메라 파라미터를 몇 초만에 복구할 수 있습니다. FreeSplatter는 순차적인 셀프 어텐션 블록으로 이루어진 간소화된 트랜스포머 아키텍처에 기반하며, 이는 다중 뷰 이미지 토큰 간의 정보 교환을 용이하게 하고 이를 픽셀별 3D 가우시안 기본 요소로 디코딩합니다. 예측된 가우시안 기본 요소는 통합된 기준 프레임에 위치하며, 고품질의 3D 모델링 및 즉각적인 카메라 파라미터 추정을 가능하게 합니다. 물체 중심 및 장면 수준 재구성을 모두 고려하기 위해 FreeSplatter의 두 가지 모델 변형을 광범위한 데이터셋에서 훈련시킵니다. 두 시나리오 모두에서 FreeSplatter는 재구성 품질과 포즈 추정 정확도 측면에서 최신 기준선을 능가합니다. 더불어, 우리는 FreeSplatter가 텍스트/이미지-3D 콘텐츠 생성과 같은 하위 응용 프로그램의 생산성 향상 가능성을 보여줍니다.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.