ChatPaper.aiChatPaper

NVComposer: 다중 희소 및 무포즈 이미지를 활용한 생성적 신규 뷰 합성 향상

NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images

December 4, 2024
저자: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI

초록

최근 생성 모델의 발전은 다중 뷰 데이터로부터의 새로운 시야 합성(NVS)을 현저히 향상시켰다. 그러나 기존 방법은 명시적 자세 추정이나 사전 재구성과 같은 외부 다중 뷰 정렬 과정에 의존하며, 이는 뷰 간 충분한 겹침이나 가려짐으로 인해 정렬이 불안정할 때 특히 그들의 유연성과 접근성을 제한한다. 본 논문에서는 명시적 외부 정렬이 필요 없는 새로운 접근 방식인 NVComposer를 제안한다. NVComposer는 생성 모델이 여러 조건부 뷰 간의 공간적 및 기하학적 관계를 암시적으로 추론할 수 있도록 하는 두 가지 주요 구성 요소를 도입함으로써 가능케 한다: 1) 대상 새로운 뷰와 조건 카메라 자세를 동시에 생성하는 이미지-자세 이중 스트림 확산 모델, 그리고 2) 훈련 중 밀집 스테레오 모델로부터 기하학적 사전을 추출하는 기하학적 인식 특징 정렬 모듈. 광범위한 실험 결과, NVComposer가 생성적 다중 뷰 NVS 작업에서 최고 수준의 성능을 달성하며 외부 정렬에 대한 의존성을 제거하고 모델의 접근성을 향상시킨다는 것을 입증한다. 우리의 접근 방식은 입력 뷰의 수가 증가함에 따라 합성 품질이 상당히 향상되는 것을 보여주며, 더 유연하고 접근성 있는 생성적 NVS 시스템에 대한 잠재력을 강조한다.
English
Recent advancements in generative models have significantly improved novel view synthesis (NVS) from multi-view data. However, existing methods depend on external multi-view alignment processes, such as explicit pose estimation or pre-reconstruction, which limits their flexibility and accessibility, especially when alignment is unstable due to insufficient overlap or occlusions between views. In this paper, we propose NVComposer, a novel approach that eliminates the need for explicit external alignment. NVComposer enables the generative model to implicitly infer spatial and geometric relationships between multiple conditional views by introducing two key components: 1) an image-pose dual-stream diffusion model that simultaneously generates target novel views and condition camera poses, and 2) a geometry-aware feature alignment module that distills geometric priors from dense stereo models during training. Extensive experiments demonstrate that NVComposer achieves state-of-the-art performance in generative multi-view NVS tasks, removing the reliance on external alignment and thus improving model accessibility. Our approach shows substantial improvements in synthesis quality as the number of unposed input views increases, highlighting its potential for more flexible and accessible generative NVS systems.

Summary

AI-Generated Summary

PDF193December 5, 2024