FreeSplatter: Splatting Gaussiano senza posa per la ricostruzione 3D a vista sparso
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
Autori: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
Abstract
I modelli esistenti di ricostruzione da viste sparse dipendono pesantemente da pose di telecamere conosciute con precisione. Tuttavia, derivare estrinseci e intrinseci della telecamera da immagini a viste sparse presenta significativi ostacoli. In questo lavoro, presentiamo FreeSplatter, un framework di ricostruzione altamente scalabile e feed-forward in grado di generare Gaussiane 3D di alta qualità da immagini a viste sparse non calibrate e di recuperare i relativi parametri della telecamera in pochi secondi. FreeSplatter si basa su un'architettura di trasformatore ottimizzata, composta da blocchi di autoattenzione sequenziali che facilitano lo scambio di informazioni tra token di immagini multi-vista e li decodificano in primitive Gaussiane 3D a livello di pixel. Le primitive Gaussiane predette sono posizionate in un unico frame di riferimento, consentendo una modellazione 3D ad alta fedeltà e una stima istantanea dei parametri della telecamera utilizzando risolutori già disponibili. Per soddisfare sia la ricostruzione centrata sugli oggetti che a livello di scena, addestriamo due varianti del modello di FreeSplatter su dataset estesi. In entrambi i casi, FreeSplatter supera i baselines all'avanguardia in termini di qualità della ricostruzione e accuratezza della stima della posa. Inoltre, mostriamo il potenziale di FreeSplatter nel migliorare la produttività delle applicazioni derivate, come la creazione di contenuti testo/immagine in 3D.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary