SAMURAI: Adattamento del Modello Segment Anything per il Tracciamento Visivo Zero-Shot con Memoria Consapevole del Movimento
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Autori: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Abstract
Il Modello Segment Anything 2 (SAM 2) ha dimostrato elevate prestazioni nelle attività di segmentazione degli oggetti, ma affronta sfide nel tracciamento visivo degli oggetti, specialmente quando si trovano in scene affollate con oggetti in movimento rapido o auto-occlusi. Inoltre, l'approccio di memoria a finestra fissa nel modello originale non tiene conto della qualità dei ricordi selezionati per condizionare le caratteristiche dell'immagine per il frame successivo, portando alla propagazione degli errori nei video. Questo articolo introduce SAMURAI, un'adattamento potenziato di SAM 2 specificamente progettato per il tracciamento visivo degli oggetti. Integrando indizi temporali di movimento con il meccanismo di selezione della memoria consapevole del movimento proposto, SAMURAI predice efficacemente il movimento dell'oggetto e affina la selezione della maschera, raggiungendo un tracciamento robusto e preciso senza la necessità di ritraining o fine-tuning. SAMURAI opera in tempo reale e dimostra elevate prestazioni zero-shot su diversi dataset di benchmark, mostrando la sua capacità di generalizzare senza fine-tuning. Nelle valutazioni, SAMURAI ottiene significativi miglioramenti nel tasso di successo e nella precisione rispetto ai tracciatori esistenti, con un aumento dell'AUC del 7,1% su LaSOT_{ext} e un aumento dell'AO del 3,5% su GOT-10k. Inoltre, ottiene risultati competitivi rispetto ai metodi completamente supervisionati su LaSOT, sottolineando la sua robustezza in scenari di tracciamento complessi e il suo potenziale per applicazioni reali in ambienti dinamici. Codice e risultati sono disponibili su https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary