DELTA: Dichte Efficiënte Long-range 3D Tracking voor elke video

Samenvatting

Het volgen van dichte 3D-bewegingen van monoculaire video's blijft uitdagend, vooral wanneer gestreefd wordt naar pixelnauwkeurigheid over lange sequenties. We introduceren \Approach, een innovatieve methode die efficiënt elk pixel in 3D-ruimte volgt, waardoor nauwkeurige bewegingsschatting over hele video's mogelijk is. Onze aanpak maakt gebruik van een gezamenlijk globaal-lokaal aandachtsmechanisme voor tracking op verminderde resolutie, gevolgd door een transformer-gebaseerde upsampler om voorspellingen op hoge resolutie te bereiken. In tegenstelling tot bestaande methoden, die beperkt worden door computationele inefficiëntie of schaarse tracking, levert \Approach dichte 3D-tracking op schaal, waarbij het meer dan 8 keer sneller werkt dan eerdere methoden en tegelijkertijd state-of-the-art nauwkeurigheid bereikt. Bovendien onderzoeken we de impact van diepterepresentatie op de trackingprestaties en identificeren we log-diepte als de optimale keuze. Uitgebreide experimenten tonen de superioriteit van \Approach aan op meerdere benchmarks, waarbij nieuwe state-of-the-art resultaten worden behaald in zowel 2D- als 3D-dichte trackingtaken. Onze methode biedt een robuuste oplossing voor toepassingen die fijnmazige, langdurige bewegingstracking in 3D-ruimte vereisen.

English

Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.

DELTA: Dichte Efficiënte Long-range 3D Tracking voor elke video

DELTA: Dense Efficient Long-range 3D Tracking for any video

Samenvatting

Summary

Support