SAMURAI : Adaptation du modèle Segment Anything pour le suivi visuel sans étiquette avec une mémoire sensible au mouvement
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Auteurs: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Résumé
Le Modèle Segment Anything 2 (SAM 2) a démontré de solides performances dans les tâches de segmentation d'objets mais rencontre des défis dans le suivi visuel d'objets, notamment lors de scènes encombrées avec des objets se déplaçant rapidement ou s'auto-occulant. De plus, l'approche de mémoire à fenêtre fixe du modèle original ne prend pas en compte la qualité des souvenirs sélectionnés pour conditionner les caractéristiques de l'image pour le prochain cadre, entraînant une propagation des erreurs dans les vidéos. Cet article présente SAMURAI, une adaptation améliorée de SAM 2 spécifiquement conçue pour le suivi visuel d'objets. En incorporant des indices de mouvement temporel avec le mécanisme de sélection de mémoire conscient du mouvement proposé, SAMURAI prédit efficacement le mouvement de l'objet et affine la sélection du masque, atteignant un suivi robuste et précis sans nécessiter de réentraînement ou de fine-tuning. SAMURAI fonctionne en temps réel et démontre de solides performances en zero-shot sur divers ensembles de données de référence, mettant en valeur sa capacité à généraliser sans fine-tuning. Dans les évaluations, SAMURAI obtient des améliorations significatives du taux de réussite et de la précision par rapport aux traqueurs existants, avec un gain de 7,1 % de l'AUC sur LaSOT_{ext} et un gain de 3,5 % de l'AO sur GOT-10k. De plus, il obtient des résultats compétitifs par rapport aux méthodes entièrement supervisées sur LaSOT, soulignant sa robustesse dans des scénarios de suivi complexes et son potentiel pour des applications réelles dans des environnements dynamiques. Le code et les résultats sont disponibles sur https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary