GeometryCrafter: Согласованное восстановление геометрии для видео открытого мира с использованием диффузионных априорных моделей
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
April 1, 2025
Авторы: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI
Аннотация
Несмотря на значительные достижения в области оценки глубины видео, существующие методы демонстрируют присущие им ограничения в достижении геометрической точности через аффинно-инвариантные предсказания, что ограничивает их применимость в задачах реконструкции и других метрически обоснованных приложениях. Мы предлагаем GeometryCrafter — новый фреймворк, который восстанавливает последовательности карт точек с высокой точностью и временной согласованностью из видео реального мира, что позволяет выполнять точную 3D/4D реконструкцию, оценку параметров камеры и другие приложения, основанные на глубине. В основе нашего подхода лежит вариационный автоэнкодер (VAE) для карт точек, который изучает латентное пространство, независимое от распределений латентных переменных видео, для эффективного кодирования и декодирования карт точек. Используя VAE, мы обучаем диффузионную модель видео для моделирования распределения последовательностей карт точек, обусловленных входными видео. Обширные оценки на различных наборах данных демонстрируют, что GeometryCrafter достигает передовой точности в 3D, временной согласованности и способности к обобщению.
English
Despite remarkable advancements in video depth estimation, existing methods
exhibit inherent limitations in achieving geometric fidelity through the
affine-invariant predictions, limiting their applicability in reconstruction
and other metrically grounded downstream tasks. We propose GeometryCrafter, a
novel framework that recovers high-fidelity point map sequences with temporal
coherence from open-world videos, enabling accurate 3D/4D reconstruction,
camera parameter estimation, and other depth-based applications. At the core of
our approach lies a point map Variational Autoencoder (VAE) that learns a
latent space agnostic to video latent distributions for effective point map
encoding and decoding. Leveraging the VAE, we train a video diffusion model to
model the distribution of point map sequences conditioned on the input videos.
Extensive evaluations on diverse datasets demonstrate that GeometryCrafter
achieves state-of-the-art 3D accuracy, temporal consistency, and generalization
capability.Summary
AI-Generated Summary