ChatPaper.aiChatPaper

스플래팅 기반 확산 모델을 통한 고품질 신시점 합성

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
저자: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

초록

최근 신시점 합성(Novel View Synthesis, NVS) 분야에서의 발전에도 불구하고, 단일 또는 희소 관측으로부터 고해상도 뷰를 생성하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 스플래팅(splatting) 기반 접근법은 스플래팅 오류로 인해 왜곡된 기하학적 구조를 생성하는 경우가 많습니다. 반면, 확산(diffusion) 기반 방법은 풍부한 3D 사전 지식을 활용하여 개선된 기하학적 구조를 달성하지만, 텍스처 환각(texture hallucination) 문제를 자주 겪습니다. 본 논문에서는 단일 이미지로부터 고해상도의 새로운 뷰를 합성하기 위해 픽셀 스플래팅 기반 비디오 확산 모델인 SplatDiff를 소개합니다. 구체적으로, 우리는 정확한 타겟 시점 제어와 기하학적으로 일관된 뷰 합성을 위한 정렬된 합성 전략을 제안합니다. 텍스처 환각을 완화하기 위해, 적응형 특징 융합을 통해 고해상도 텍스처 생성을 가능하게 하는 텍스처 브리지 모듈을 설계했습니다. 이러한 방식으로 SplatDiff는 스플래팅과 확산의 장점을 활용하여 일관된 기하학적 구조와 고해상도 디테일을 가진 새로운 뷰를 생성합니다. 광범위한 실험을 통해 SplatDiff가 단일 뷰 NVS에서 최첨단 성능을 보임을 검증했습니다. 또한, 추가 학습 없이도 SplatDiff는 희소 뷰 NVS 및 스테레오 비디오 변환과 같은 다양한 작업에서 뛰어난 제로샷(zero-shot) 성능을 보여줍니다.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF22February 20, 2025