NVComposer: Potenziare la sintesi generativa di nuove visuali con multiple immagini sparse e non posate
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Autori: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Abstract
I recenti progressi nei modelli generativi hanno significativamente migliorato la sintesi di nuove visuali (NVS) da dati multi-view. Tuttavia, i metodi esistenti dipendono da processi esterni di allineamento multi-view, come la stima esplicita della posa o la pre-ricostruzione, che limitano la loro flessibilità e accessibilità, specialmente quando l'allineamento è instabile a causa di sovrapposizioni insufficienti o occlusioni tra le visuali. In questo articolo, proponiamo NVComposer, un nuovo approccio che elimina la necessità di un allineamento esterno esplicito. NVComposer consente al modello generativo di inferire implicitamente le relazioni spaziali e geometriche tra visuali condizionali multiple introducendo due componenti chiave: 1) un modello di diffusione dual-stream immagine-posa che genera contemporaneamente nuove visuali target e pose della fotocamera condizionali, e 2) un modulo di allineamento delle caratteristiche consapevole della geometria che distilla priori geometrici da modelli stereo densi durante l'addestramento. Estesi esperimenti dimostrano che NVComposer raggiunge prestazioni all'avanguardia nei compiti generativi multi-view NVS, eliminando la dipendenza dall'allineamento esterno e migliorando così l'accessibilità del modello. Il nostro approccio mostra miglioramenti sostanziali nella qualità di sintesi all'aumentare del numero di visuali di input non posate, evidenziando il suo potenziale per sistemi generativi NVS più flessibili e accessibili.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary