DiffSplat: 확장 가능한 가우시안 스플랫 생성을 위해 이미지 확산 모델 재활용
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
저자: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
초록
최근 3D 콘텐츠 생성의 발전은 텍스트나 단일 이미지에서의 제한된 고품질 3D 데이터셋과 2D 다중 뷰 생성에서의 일관성과의 불일치로 인해 어려움을 겪고 있습니다. 저희는 DiffSplat이라는 새로운 3D 생성 프레임워크를 소개합니다. 이 프레임워크는 대규모 텍스트-이미지 확산 모델을 다루면서 3D 가우시안 스플랫을 기본적으로 생성합니다. 이는 이전의 3D 생성 모델과 다르게 웹 규모의 2D 사전을 효과적으로 활용하면서 통합된 모델에서 3D 일관성을 유지합니다. 훈련을 초기화하기 위해 가벼운 재구성 모델이 제안되어 확장 가능한 데이터셋 구성을 위해 즉시 다중 뷰 가우시안 스플랫 그리드를 생성합니다. 이러한 그리드에 정규 확산 손실과 함께 3D 렌더링 손실이 도입되어 임의의 뷰에 걸쳐 3D 일관성을 용이하게 합니다. 이미지 확산 모델과의 호환성은 다양한 이미지 생성 기술을 3D 영역으로 매끄럽게 적응할 수 있게 합니다. 광범위한 실험에서 DiffSplat의 텍스트 및 이미지 조건부 생성 작업 및 하위 응용 프로그램에서의 우수성이 드러났습니다. 철저한 제거 연구는 각 중요한 설계 선택의 효과를 검증하고 근본적인 메커니즘에 대한 통찰을 제공합니다.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary