DELTA: Tracciamento 3D denso, efficiente a lungo raggio per qualsiasi video
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Autori: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Abstract
Il tracciamento del movimento 3D denso da video monoculari rimane una sfida, specialmente quando si mira alla precisione a livello di pixel su lunghe sequenze. Presentiamo \Approach, un nuovo metodo che traccia efficientemente ogni pixel nello spazio 3D, consentendo una stima accurata del movimento lungo l'intero video. Il nostro approccio sfrutta un meccanismo di attenzione globale-locale congiunto per il tracciamento a risoluzione ridotta, seguito da un upsampler basato su trasformatore per ottenere previsioni ad alta risoluzione. A differenza dei metodi esistenti, limitati dall'inefficienza computazionale o dal tracciamento sparso, \Approach offre un tracciamento 3D denso su larga scala, eseguendo oltre 8 volte più velocemente rispetto ai metodi precedenti pur raggiungendo un'accuratezza all'avanguardia. Inoltre, esploriamo l'impatto della rappresentazione della profondità sulle prestazioni di tracciamento e identifichiamo la log-profondità come scelta ottimale. Estesi esperimenti dimostrano la superiorità di \Approach su più benchmark, ottenendo nuovi risultati all'avanguardia sia nei compiti di tracciamento denso 2D che 3D. Il nostro metodo fornisce una soluzione robusta per applicazioni che richiedono un tracciamento del movimento dettagliato e a lungo termine nello spazio 3D.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary