DELTA: Tracciamento 3D denso, efficiente a lungo raggio per qualsiasi video

DELTA: Dense Efficient Long-range 3D Tracking for any video

October 31, 2024
Autori: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI

Abstract

Il tracciamento del movimento 3D denso da video monoculari rimane una sfida, specialmente quando si mira alla precisione a livello di pixel su lunghe sequenze. Presentiamo \Approach, un nuovo metodo che traccia efficientemente ogni pixel nello spazio 3D, consentendo una stima accurata del movimento lungo l'intero video. Il nostro approccio sfrutta un meccanismo di attenzione globale-locale congiunto per il tracciamento a risoluzione ridotta, seguito da un upsampler basato su trasformatore per ottenere previsioni ad alta risoluzione. A differenza dei metodi esistenti, limitati dall'inefficienza computazionale o dal tracciamento sparso, \Approach offre un tracciamento 3D denso su larga scala, eseguendo oltre 8 volte più velocemente rispetto ai metodi precedenti pur raggiungendo un'accuratezza all'avanguardia. Inoltre, esploriamo l'impatto della rappresentazione della profondità sulle prestazioni di tracciamento e identifichiamo la log-profondità come scelta ottimale. Estesi esperimenti dimostrano la superiorità di \Approach su più benchmark, ottenendo nuovi risultati all'avanguardia sia nei compiti di tracciamento denso 2D che 3D. Il nostro metodo fornisce una soluzione robusta per applicazioni che richiedono un tracciamento del movimento dettagliato e a lungo termine nello spazio 3D.
English
Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.

Summary

AI-Generated Summary

PDF82November 13, 2024