SAMURAI: Anpassung des Segment-Anything-Modells für das Null-Schuss-Visuelle Tracking mit Bewegungsbewusstem Speicher

Zusammenfassung

Das Segment Anything Model 2 (SAM 2) hat eine starke Leistung bei der Objektsegmentierung gezeigt, steht jedoch vor Herausforderungen bei der visuellen Objektverfolgung, insbesondere bei der Bewältigung von überfüllten Szenen mit schnell beweglichen oder sich selbst verdeckenden Objekten. Darüber hinaus berücksichtigt der Ansatz des festen Fensterspeichers im Originalmodell nicht die Qualität der ausgewählten Erinnerungen, um die Bildmerkmale für den nächsten Frame zu konditionieren, was zu Fehlerausbreitung in Videos führt. Dieser Artikel stellt SAMURAI vor, eine verbesserte Anpassung von SAM 2, die speziell für die visuelle Objektverfolgung entwickelt wurde. Durch die Integration von zeitlichen Bewegungshinweisen mit dem vorgeschlagenen bewegungsbewussten Speicherauswahlmechanismus sagt SAMURAI effektiv die Objektbewegung voraus und verfeinert die Maskenauswahl, um eine robuste, präzise Verfolgung ohne die Notwendigkeit einer Neuschulung oder Feinabstimmung zu erreichen. SAMURAI arbeitet in Echtzeit und zeigt eine starke Null-Schuss-Leistung über verschiedene Benchmark-Datensätze hinweg, was seine Fähigkeit zur Verallgemeinerung ohne Feinabstimmung unterstreicht. In Evaluierungen erzielt SAMURAI signifikante Verbesserungen bei Erfolgsrate und Präzision gegenüber bestehenden Verfolgern, mit einem AUC-Gewinn von 7,1% bei LaSOT_{ext} und einem AO-Gewinn von 3,5% bei GOT-10k. Darüber hinaus erzielt es im Vergleich zu vollständig überwachten Methoden auf LaSOT wettbewerbsfähige Ergebnisse, was seine Robustheit in komplexen Verfolgungsszenarien und sein Potenzial für Anwendungen in dynamischen Umgebungen unterstreicht. Code und Ergebnisse sind verfügbar unter https://github.com/yangchris11/samurai.

English

The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fixed-window memory approach in the original model does not consider the quality of memories selected to condition the image features for the next frame, leading to error propagation in videos. This paper introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for visual object tracking. By incorporating temporal motion cues with the proposed motion-aware memory selection mechanism, SAMURAI effectively predicts object motion and refines mask selection, achieving robust, accurate tracking without the need for retraining or fine-tuning. SAMURAI operates in real-time and demonstrates strong zero-shot performance across diverse benchmark datasets, showcasing its ability to generalize without fine-tuning. In evaluations, SAMURAI achieves significant improvements in success rate and precision over existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO gain on GOT-10k. Moreover, it achieves competitive results compared to fully supervised methods on LaSOT, underscoring its robustness in complex tracking scenarios and its potential for real-world applications in dynamic environments. Code and results are available at https://github.com/yangchris11/samurai.

SAMURAI: Anpassung des Segment-Anything-Modells für das Null-Schuss-Visuelle Tracking mit Bewegungsbewusstem Speicher

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Zusammenfassung

Summary

Support