Profondità video senza modelli video
Video Depth without Video Models
November 28, 2024
Autori: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Abstract
La stima della profondità video trasforma i video monoculari in 3D inferendo una profondità densa ad ogni frame. Gli avanzamenti recenti nella stima della profondità da singola immagine, resi possibili dall'ascesa dei grandi modelli di base e dall'uso di dati di addestramento sintetici, hanno alimentato un rinnovato interesse nella profondità video. Tuttavia, applicare ingenuamente un estimatore di profondità da singola immagine ad ogni frame di un video trascura la continuità temporale, che non solo porta a sfarfallii ma potrebbe anche fallire quando il movimento della telecamera causa improvvisi cambiamenti nell'intervallo di profondità. Una soluzione ovvia e ben fondata sarebbe costruire sopra modelli di base video, ma questi presentano le proprie limitazioni; tra cui costosi addestramenti e inferenze, inconsistenza 3D imperfetta e procedure di stitching per le uscite di lunghezza fissa (brevi). Noi prendiamo un passo indietro e dimostriamo come trasformare un modello di diffusione latente da singola immagine (LDM) in un estimatore di profondità video all'avanguardia. Il nostro modello, che chiamiamo RollingDepth, ha due ingredienti principali: (i) un estimatore di profondità multi-frame derivato da un LDM da singola immagine e che mappa brevi spezzoni video (tipicamente triplette di frame) in spezzoni di profondità. (ii) un robusto algoritmo di registrazione basato sull'ottimizzazione che assembla in modo ottimale spezzoni di profondità campionati a diverse frequenze di frame in un video coerente. RollingDepth è in grado di gestire efficientemente video lunghi con centinaia di frame e fornisce video di profondità più accurati sia rispetto agli estimatori di profondità video dedicati che ai modelli di singolo frame ad alte prestazioni. Pagina del progetto: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary