FreeSplatter: Splatting Gaussiano senza posa per la ricostruzione 3D a vista sparso

Abstract

I modelli esistenti di ricostruzione da viste sparse dipendono pesantemente da pose di telecamere conosciute con precisione. Tuttavia, derivare estrinseci e intrinseci della telecamera da immagini a viste sparse presenta significativi ostacoli. In questo lavoro, presentiamo FreeSplatter, un framework di ricostruzione altamente scalabile e feed-forward in grado di generare Gaussiane 3D di alta qualità da immagini a viste sparse non calibrate e di recuperare i relativi parametri della telecamera in pochi secondi. FreeSplatter si basa su un'architettura di trasformatore ottimizzata, composta da blocchi di autoattenzione sequenziali che facilitano lo scambio di informazioni tra token di immagini multi-vista e li decodificano in primitive Gaussiane 3D a livello di pixel. Le primitive Gaussiane predette sono posizionate in un unico frame di riferimento, consentendo una modellazione 3D ad alta fedeltà e una stima istantanea dei parametri della telecamera utilizzando risolutori già disponibili. Per soddisfare sia la ricostruzione centrata sugli oggetti che a livello di scena, addestriamo due varianti del modello di FreeSplatter su dataset estesi. In entrambi i casi, FreeSplatter supera i baselines all'avanguardia in termini di qualità della ricostruzione e accuratezza della stima della posa. Inoltre, mostriamo il potenziale di FreeSplatter nel migliorare la produttività delle applicazioni derivate, come la creazione di contenuti testo/immagine in 3D.

English

Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter's potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.

FreeSplatter: Splatting Gaussiano senza posa per la ricostruzione 3D a vista sparso

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Abstract

Summary

Support