DELTA: Dichte Efficiënte Long-range 3D Tracking voor elke video
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Auteurs: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Samenvatting
Het volgen van dichte 3D-bewegingen van monoculaire video's blijft uitdagend, vooral wanneer gestreefd wordt naar pixelnauwkeurigheid over lange sequenties. We introduceren \Approach, een innovatieve methode die efficiënt elk pixel in 3D-ruimte volgt, waardoor nauwkeurige bewegingsschatting over hele video's mogelijk is. Onze aanpak maakt gebruik van een gezamenlijk globaal-lokaal aandachtsmechanisme voor tracking op verminderde resolutie, gevolgd door een transformer-gebaseerde upsampler om voorspellingen op hoge resolutie te bereiken. In tegenstelling tot bestaande methoden, die beperkt worden door computationele inefficiëntie of schaarse tracking, levert \Approach dichte 3D-tracking op schaal, waarbij het meer dan 8 keer sneller werkt dan eerdere methoden en tegelijkertijd state-of-the-art nauwkeurigheid bereikt. Bovendien onderzoeken we de impact van diepterepresentatie op de trackingprestaties en identificeren we log-diepte als de optimale keuze. Uitgebreide experimenten tonen de superioriteit van \Approach aan op meerdere benchmarks, waarbij nieuwe state-of-the-art resultaten worden behaald in zowel 2D- als 3D-dichte trackingtaken. Onze methode biedt een robuuste oplossing voor toepassingen die fijnmazige, langdurige bewegingstracking in 3D-ruimte vereisen.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary