GeometryCrafter: Stima Geometrica Coerente per Video nel Mondo Aperto con Prior Diffusivi
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
April 1, 2025
Autori: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI
Abstract
Nonostante i notevoli progressi nella stima della profondità video, i metodi esistenti presentano limitazioni intrinseche nel raggiungere una fedeltà geometrica attraverso previsioni invarianti rispetto alle trasformazioni affini, limitando la loro applicabilità nella ricostruzione e in altre attività a valle basate su metriche. Proponiamo GeometryCrafter, un nuovo framework che recupera sequenze di mappe di punti ad alta fedeltà con coerenza temporale da video del mondo reale, consentendo una ricostruzione 3D/4D accurata, la stima dei parametri della telecamera e altre applicazioni basate sulla profondità. Al centro del nostro approccio si trova un Variational Autoencoder (VAE) per mappe di punti che apprende uno spazio latente indipendente dalle distribuzioni latenti dei video, consentendo una codifica e decodifica efficace delle mappe di punti. Sfruttando il VAE, addestriamo un modello di diffusione video per modellare la distribuzione delle sequenze di mappe di punti condizionate ai video di input. Valutazioni estensive su diversi dataset dimostrano che GeometryCrafter raggiunge una precisione 3D all'avanguardia, coerenza temporale e capacità di generalizzazione.
English
Despite remarkable advancements in video depth estimation, existing methods
exhibit inherent limitations in achieving geometric fidelity through the
affine-invariant predictions, limiting their applicability in reconstruction
and other metrically grounded downstream tasks. We propose GeometryCrafter, a
novel framework that recovers high-fidelity point map sequences with temporal
coherence from open-world videos, enabling accurate 3D/4D reconstruction,
camera parameter estimation, and other depth-based applications. At the core of
our approach lies a point map Variational Autoencoder (VAE) that learns a
latent space agnostic to video latent distributions for effective point map
encoding and decoding. Leveraging the VAE, we train a video diffusion model to
model the distribution of point map sequences conditioned on the input videos.
Extensive evaluations on diverse datasets demonstrate that GeometryCrafter
achieves state-of-the-art 3D accuracy, temporal consistency, and generalization
capability.Summary
AI-Generated Summary