ChatPaper.aiChatPaper

SplatFlow: 3D 가우시안 스플래팅을 위한 다중 뷰 정정 플로우 모델 합성

SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

November 25, 2024
저자: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI

초록

텍스트 기반의 3D 장면 생성 및 편집은 직관적인 사용자 상호작용을 통해 콘텐츠 생성을 효율적으로 할 수 있는 상당한 잠재력을 지니고 있습니다. 최근의 발전은 고품질 및 실시간 렌더링을 위해 3차원 가우시안 스플래팅(3DGS)을 활용하고 있지만, 기존 방법들은 종종 특수화되어 있고 작업 중심적이며, 생성 및 편집을 위한 통합된 프레임워크가 부족합니다. 본 논문에서는 이 간극을 해소하기 위해 직접적인 3DGS 생성 및 편집을 가능하게 하는 포괄적인 프레임워크인 SplatFlow를 소개합니다. SplatFlow는 두 가지 주요 구성 요소로 이루어져 있습니다: 다중 뷰 정정된 플로우(RF) 모델과 가우시안 스플래팅 디코더(GSDecoder). 다중 뷰 RF 모델은 잠재 공간에서 작동하여 텍스트 프롬프트에 의해 조건부로 동시에 다양한 장면 규모와 복잡한 카메라 궤적과 같은 실제 세계 설정에서의 도전과제를 해결하기 위해 다중 뷰 이미지, 깊이 및 카메라 위치를 생성합니다. 그런 다음, GSDecoder는 이러한 잠재적 출력을 효율적으로 3DGS 표현으로 변환하기 위해 순방향 3DGS 방법을 사용합니다. 훈련 없이 역전 및 인페인팅 기술을 활용하여 SplatFlow는 신속한 3DGS 편집을 가능하게 하며, 별도의 복잡한 파이프라인이 필요하지 않는 통합된 프레임워크 내에서 객체 편집, 새로운 뷰 합성 및 카메라 위치 추정을 포함한 다양한 3D 작업을 지원합니다. MVImgNet 및 DL3DV-7K 데이터셋에서 SplatFlow의 능력을 검증하여 다양한 3D 생성, 편집 및 인페인팅 기반 작업에서의 다재다능성과 효과를 입증합니다.
English
Text-based generation and editing of 3D scenes hold significant potential for streamlining content creation through intuitive user interactions. While recent advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time rendering, existing methods are often specialized and task-focused, lacking a unified framework for both generation and editing. In this paper, we introduce SplatFlow, a comprehensive framework that addresses this gap by enabling direct 3DGS generation and editing. SplatFlow comprises two main components: a multi-view rectified flow (RF) model and a Gaussian Splatting Decoder (GSDecoder). The multi-view RF model operates in latent space, generating multi-view images, depths, and camera poses simultaneously, conditioned on text prompts, thus addressing challenges like diverse scene scales and complex camera trajectories in real-world settings. Then, the GSDecoder efficiently translates these latent outputs into 3DGS representations through a feed-forward 3DGS method. Leveraging training-free inversion and inpainting techniques, SplatFlow enables seamless 3DGS editing and supports a broad range of 3D tasks-including object editing, novel view synthesis, and camera pose estimation-within a unified framework without requiring additional complex pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K datasets, demonstrating its versatility and effectiveness in various 3D generation, editing, and inpainting-based tasks.

Summary

AI-Generated Summary

PDF122November 26, 2024