DELTA: Dichte Effiziente Langstrecken-3D-Verfolgung für jedes Video
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Autoren: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Zusammenfassung
Die Verfolgung dichter 3D-Bewegungen aus monokularen Videos bleibt herausfordernd, insbesondere wenn eine Pixelgenauigkeit über lange Sequenzen angestrebt wird. Wir stellen \Approach vor, eine neuartige Methode, die effizient jedes Pixel im 3D-Raum verfolgt und eine präzise Bewegungsschätzung über gesamte Videos ermöglicht. Unser Ansatz nutzt einen gemeinsamen global-lokalen Aufmerksamkeitsmechanismus für die Verfolgung mit reduzierter Auflösung, gefolgt von einem auf Transformer basierenden Upsampler zur Erzielung hochauflösender Vorhersagen. Im Gegensatz zu bestehenden Methoden, die durch Rechenineffizienz oder spärliche Verfolgung begrenzt sind, bietet \Approach eine dichte 3D-Verfolgung im großen Maßstab, die über 8-mal schneller läuft als bisherige Methoden und dabei eine Spitzenpräzision erreicht. Darüber hinaus untersuchen wir den Einfluss der Tiefenrepräsentation auf die Verfolgungsleistung und identifizieren Log-Tiefe als die optimale Wahl. Umfangreiche Experimente zeigen die Überlegenheit von \Approach auf mehreren Benchmarks und erzielen neue Spitzenleistungen sowohl bei 2D- als auch bei 3D-dichten Verfolgungsaufgaben. Unsere Methode bietet eine robuste Lösung für Anwendungen, die eine feingranulare, langfristige Bewegungsverfolgung im 3D-Raum erfordern.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary