Paese delle Meraviglie: Navigare Scene 3D da un'Immagine Singola
Wonderland: Navigating 3D Scenes from a Single Image
December 16, 2024
Autori: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI
Abstract
Questo articolo affronta una domanda impegnativa: come possiamo creare in modo efficiente scene 3D di alta qualità e di ampia portata da un'unica immagine arbitraria? I metodi esistenti si trovano di fronte a diverse limitazioni, come la necessità di dati multi-view, ottimizzazione per-scena dispendiosa in termini di tempo, bassa qualità visiva negli sfondi e ricostruzioni distorte in aree non viste. Proponiamo un nuovo processo per superare tali limitazioni. In particolare, introduciamo un modello di ricostruzione su larga scala che utilizza latenti da un modello di diffusione video per prevedere Gaussian Splattings 3D per le scene in modo feed-forward. Il modello di diffusione video è progettato per creare video che seguono precisamente traiettorie di telecamere specificate, consentendo di generare latenti video compressi che contengono informazioni multi-view mantenendo al contempo la consistenza 3D. Addestriamo il modello di ricostruzione 3D per operare nello spazio latente video con una strategia di addestramento progressiva, consentendo la generazione efficiente di scene 3D di alta qualità, di ampia portata e generiche. Valutazioni approfondite su vari set di dati dimostrano che il nostro modello supera significativamente i metodi esistenti per la generazione di scene 3D da singola vista, in particolare con immagini fuori dominio. Per la prima volta, dimostriamo che un modello di ricostruzione 3D può essere costruito in modo efficace sullo spazio latente di un modello di diffusione per realizzare una generazione efficiente di scene 3D.
English
This paper addresses a challenging question: How can we efficiently create
high-quality, wide-scope 3D scenes from a single arbitrary image? Existing
methods face several constraints, such as requiring multi-view data,
time-consuming per-scene optimization, low visual quality in backgrounds, and
distorted reconstructions in unseen areas. We propose a novel pipeline to
overcome these limitations. Specifically, we introduce a large-scale
reconstruction model that uses latents from a video diffusion model to predict
3D Gaussian Splattings for the scenes in a feed-forward manner. The video
diffusion model is designed to create videos precisely following specified
camera trajectories, allowing it to generate compressed video latents that
contain multi-view information while maintaining 3D consistency. We train the
3D reconstruction model to operate on the video latent space with a progressive
training strategy, enabling the efficient generation of high-quality,
wide-scope, and generic 3D scenes. Extensive evaluations across various
datasets demonstrate that our model significantly outperforms existing methods
for single-view 3D scene generation, particularly with out-of-domain images.
For the first time, we demonstrate that a 3D reconstruction model can be
effectively built upon the latent space of a diffusion model to realize
efficient 3D scene generation.Summary
AI-Generated Summary