대조적인 랜덤 워크를 통한 자기 지도형 어떤 지점 추적
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
저자: Ayush Shrivastava, Andrew Owens
cs.AI
초록
우리는 Tracking Any Point (TAP) 문제에 대한 간단하고 자기 지도 학습 방법을 제안합니다. 우리는 전역 일치 변환기를 훈련시켜 비디오를 통해 대조적인 랜덤 워크를 사용하여 사이클 일관성 있는 트랙을 찾도록 하며, 변환기의 주의 기반 전역 일치를 사용하여 공간-시간 그래프 상의 랜덤 워크를 위한 전이 행렬을 정의합니다. 점들 간의 "모든 쌍" 비교를 수행할 수 있는 능력은 모델이 높은 공간적 정밀도를 얻고 강력한 대조적 학습 신호를 얻을 수 있도록 하며, 최근의 접근법들의 복잡성을 피할 수 있습니다(예: 굵은-세밀 일치). 이를 위해 우리는 전역 일치 구조를 자기 지도를 통해 사이클 일관성을 사용하여 훈련할 수 있도록 하는 여러 디자인 결정을 제안합니다. 예를 들어, 우리는 변환기 기반 방법이 단축풀 솔루션에 민감하다는 것을 확인하고 그것들을 해결하기 위한 데이터 증강 체계를 제안합니다. 우리의 방법은 TapVid 벤치마크에서 강력한 성능을 달성하며, DIFT와 같은 이전의 자기 지도 추적 방법을 능가하며, 여러 지도 방법과 경쟁력을 갖습니다.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary