ChatPaper.aiChatPaper

TAPIP3D: Het Volgen van Elk Punt in Persistente 3D-Geometrie

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

April 20, 2025
Auteurs: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI

Samenvatting

We introduceren TAPIP3D, een nieuwe aanpak voor langdurige 3D-puntvolging in monochromatische RGB- en RGB-D-video's. TAPIP3D representeert video's als camera-gestabiliseerde ruimtelijk-temporele kenmerkwolken, waarbij diepte- en camerabewegingsinformatie worden benut om 2D-videokenmerken om te zetten naar een 3D-wereldruimte waarin camerabeweging effectief wordt gecompenseerd. TAPIP3D verfijnt iteratief de schattingen van 3D-beweging over meerdere frames binnen deze gestabiliseerde representatie, wat robuuste volging over langere periodes mogelijk maakt. Om de inherente onregelmatigheden van 3D-puntverdelingen te beheersen, stellen we een Local Pair Attention-mechanisme voor. Deze 3D-contextualisatiestrategie benut ruimtelijke relaties in 3D effectief, waardoor informatieve kenmerkbuurten worden gevormd voor nauwkeurige 3D-trajectoriëschatting. Onze 3D-gerichte aanpak overtreft bestaande 3D-puntvolgmethoden aanzienlijk en verbetert zelfs de nauwkeurigheid van 2D-volging in vergelijking met conventionele 2D-pixelvolgers wanneer nauwkeurige diepte beschikbaar is. Het ondersteunt inferentie in zowel cameracoördinaten (d.w.z. niet-gestabiliseerd) als wereldcoördinaten, en onze resultaten tonen aan dat compensatie voor camerabeweging de volgprestaties verbetert. Onze aanpak vervangt de conventionele 2D-vierkante correlatiebuurten die worden gebruikt in eerdere 2D- en 3D-volgers, wat leidt tot robuustere en nauwkeurigere resultaten over verschillende 3D-puntvolgbenchmarks. Projectpagina: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized spatio-temporal feature clouds, leveraging depth and camera motion information to lift 2D video features into a 3D world space where camera motion is effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion estimates within this stabilized representation, enabling robust tracking over extended periods. To manage the inherent irregularities of 3D point distributions, we propose a Local Pair Attention mechanism. This 3D contextualization strategy effectively exploits spatial relationships in 3D, forming informative feature neighborhoods for precise 3D trajectory estimation. Our 3D-centric approach significantly outperforms existing 3D point tracking methods and even enhances 2D tracking accuracy compared to conventional 2D pixel trackers when accurate depth is available. It supports inference in both camera coordinates (i.e., unstabilized) and world coordinates, and our results demonstrate that compensating for camera motion improves tracking performance. Our approach replaces the conventional 2D square correlation neighborhoods used in prior 2D and 3D trackers, leading to more robust and accurate results across various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io

Summary

AI-Generated Summary

PDF72April 22, 2025