SAMURAI: Het aanpassen van het Segment Anything Model voor Zero-Shot Visuele Tracking met Bewustzijn van Beweging
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Auteurs: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Samenvatting
Het Segment Anything Model 2 (SAM 2) heeft sterke prestaties aangetoond bij objectsegmentatietaken, maar staat voor uitdagingen bij visuele objecttracking, vooral bij het beheren van drukke scènes met snelbewegende of zelf-occluderende objecten. Bovendien houdt de vaste-venster-geheugenbenadering in het oorspronkelijke model geen rekening met de kwaliteit van geselecteerde herinneringen om de beeldkenmerken voor het volgende frame te conditioneren, wat leidt tot foutenpropagatie in video's. Dit artikel introduceert SAMURAI, een verbeterde aanpassing van SAM 2 die specifiek is ontworpen voor visuele objecttracking. Door temporele bewegingsaanwijzingen te combineren met het voorgestelde mechanisme voor bewust selecteren van geheugen, voorspelt SAMURAI effectief objectbeweging en verfijnt maskerselectie, waardoor robuuste, nauwkeurige tracking wordt bereikt zonder de noodzaak voor opnieuw trainen of fijnafstemmen. SAMURAI werkt in realtime en toont sterke zero-shot prestaties over diverse benchmarkdatasets, waarbij het vermogen om te generaliseren zonder fijnafstemming wordt gedemonstreerd. In evaluaties behaalt SAMURAI aanzienlijke verbeteringen in succespercentage en precisie ten opzichte van bestaande trackers, met een AUC-winst van 7,1% op LaSOT_{ext} en een AO-winst van 3,5% op GOT-10k. Bovendien behaalt het competitieve resultaten in vergelijking met volledig begeleide methoden op LaSOT, waarbij de robuustheid in complexe tracking scenario's en het potentieel voor toepassingen in dynamische omgevingen wordt benadrukt. Code en resultaten zijn beschikbaar op https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary