SAMURAI: Anpassung des Segment-Anything-Modells für das Null-Schuss-Visuelle Tracking mit Bewegungsbewusstem Speicher
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Autoren: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Zusammenfassung
Das Segment Anything Model 2 (SAM 2) hat eine starke Leistung bei der Objektsegmentierung gezeigt, steht jedoch vor Herausforderungen bei der visuellen Objektverfolgung, insbesondere bei der Bewältigung von überfüllten Szenen mit schnell beweglichen oder sich selbst verdeckenden Objekten. Darüber hinaus berücksichtigt der Ansatz des festen Fensterspeichers im Originalmodell nicht die Qualität der ausgewählten Erinnerungen, um die Bildmerkmale für den nächsten Frame zu konditionieren, was zu Fehlerausbreitung in Videos führt. Dieser Artikel stellt SAMURAI vor, eine verbesserte Anpassung von SAM 2, die speziell für die visuelle Objektverfolgung entwickelt wurde. Durch die Integration von zeitlichen Bewegungshinweisen mit dem vorgeschlagenen bewegungsbewussten Speicherauswahlmechanismus sagt SAMURAI effektiv die Objektbewegung voraus und verfeinert die Maskenauswahl, um eine robuste, präzise Verfolgung ohne die Notwendigkeit einer Neuschulung oder Feinabstimmung zu erreichen. SAMURAI arbeitet in Echtzeit und zeigt eine starke Null-Schuss-Leistung über verschiedene Benchmark-Datensätze hinweg, was seine Fähigkeit zur Verallgemeinerung ohne Feinabstimmung unterstreicht. In Evaluierungen erzielt SAMURAI signifikante Verbesserungen bei Erfolgsrate und Präzision gegenüber bestehenden Verfolgern, mit einem AUC-Gewinn von 7,1% bei LaSOT_{ext} und einem AO-Gewinn von 3,5% bei GOT-10k. Darüber hinaus erzielt es im Vergleich zu vollständig überwachten Methoden auf LaSOT wettbewerbsfähige Ergebnisse, was seine Robustheit in komplexen Verfolgungsszenarien und sein Potenzial für Anwendungen in dynamischen Umgebungen unterstreicht. Code und Ergebnisse sind verfügbar unter https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary