DELTA : Suivi 3D dense, efficace et à longue portée pour n'importe quelle vidéo
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Auteurs: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Résumé
Le suivi de mouvements 3D denses à partir de vidéos monoculaires reste un défi, en particulier lorsqu'il s'agit d'atteindre une précision au niveau du pixel sur de longues séquences. Nous introduisons \Approach, une méthode novatrice qui suit efficacement chaque pixel dans l'espace 3D, permettant une estimation précise du mouvement sur l'ensemble des vidéos. Notre approche exploite un mécanisme d'attention global-local conjoint pour le suivi à basse résolution, suivi d'un suréchantillonneur basé sur un transformateur pour obtenir des prédictions haute résolution. Contrairement aux méthodes existantes, limitées par une inefficacité computationnelle ou un suivi clairsemé, \Approach offre un suivi 3D dense à grande échelle, fonctionnant plus de 8 fois plus rapidement que les méthodes précédentes tout en atteignant une précision de pointe. De plus, nous explorons l'impact de la représentation de la profondeur sur les performances de suivi et identifions la profondeur logarithmique comme le choix optimal. Des expériences approfondies démontrent la supériorité de \Approach sur plusieurs benchmarks, obtenant de nouveaux résultats de pointe dans les tâches de suivi dense 2D et 3D. Notre méthode offre une solution robuste pour les applications nécessitant un suivi de mouvement fin et à long terme dans l'espace 3D.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary