Tracciamento Efficientemente di Qualsiasi Cosa

Abstract

Il Modello Segment Anything 2 (SAM 2) si è imposto come uno strumento potente per la segmentazione degli oggetti nei video e il tracciamento di qualsiasi cosa. I componenti chiave di SAM 2 che guidano le prestazioni impressionanti nella segmentazione degli oggetti nei video includono un ampio codificatore di immagini multistadio per l'estrazione delle caratteristiche dei frame e un meccanismo di memoria che memorizza contesti di memoria dai frame passati per aiutare la segmentazione del frame corrente. L'alta complessità computazionale del codificatore di immagini multistadio e del modulo di memoria ha limitato le sue applicazioni in compiti del mondo reale, ad esempio la segmentazione degli oggetti nei video su dispositivi mobili. Per affrontare questa limitazione, proponiamo EfficientTAMs, modelli leggeri per tracciare qualsiasi cosa che producono risultati di alta qualità con bassa latenza e dimensioni del modello ridotte. La nostra idea si basa nel ripensare il Vision Transformer (ViT) semplice e non gerarchico come codificatore di immagini per la segmentazione degli oggetti nei video, e nell'introdurre un modulo di memoria efficiente, che riduce la complessità sia per l'estrazione delle caratteristiche del frame che per il calcolo della memoria per la segmentazione del frame corrente. Utilizziamo ViTs leggeri e un modulo di memoria efficiente per costruire EfficientTAMs, e addestriamo i modelli sui dataset SA-1B e SA-V per la segmentazione degli oggetti nei video e i compiti di tracciamento di qualsiasi cosa. Valutiamo su diversi benchmark di segmentazione video, inclusi VOS semi-supervisionati e segmentazione video promptable, e scopriamo che il nostro EfficientTAM proposto con ViT semplice si comporta in modo comparabile al modello SAM 2 (HieraB+SAM 2) con un'accelerazione di circa 2 volte su A100 e una riduzione dei parametri di circa 2,4 volte. Nei compiti di immagine di segmentazione di qualsiasi cosa, i nostri EfficientTAMs si comportano anche in modo favorevole rispetto al SAM originale con un'accelerazione di circa 20 volte su A100 e una riduzione dei parametri di circa 20 volte. Su dispositivi mobili come iPhone 15 Pro Max, i nostri EfficientTAMs possono funzionare a circa 10 FPS per eseguire la segmentazione degli oggetti nei video con una qualità ragionevole, evidenziando la capacità dei modelli ridotti per le applicazioni di segmentazione degli oggetti nei video su dispositivi.

English

Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video object segmentation and tracking anything. Key components of SAM 2 that drive the impressive video object segmentation performance include a large multistage image encoder for frame feature extraction and a memory mechanism that stores memory contexts from past frames to help current frame segmentation. The high computation complexity of multistage image encoder and memory module has limited its applications in real-world tasks, e.g., video object segmentation on mobile devices. To address this limitation, we propose EfficientTAMs, lightweight track anything models that produce high-quality results with low latency and model size. Our idea is based on revisiting the plain, nonhierarchical Vision Transformer (ViT) as an image encoder for video object segmentation, and introducing an efficient memory module, which reduces the complexity for both frame feature extraction and memory computation for current frame segmentation. We take vanilla lightweight ViTs and efficient memory module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets for video object segmentation and track anything tasks. We evaluate on multiple video segmentation benchmarks including semi-supervised VOS and promptable video segmentation, and find that our proposed EfficientTAM with vanilla ViT perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and ~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs also perform favorably over original SAM with ~20x speedup on A100 and ~20x parameter reduction. On mobile devices such as iPhone 15 Pro Max, our EfficientTAMs can run at ~10 FPS for performing video object segmentation with reasonable quality, highlighting the capability of small models for on-device video object segmentation applications.

Tracciamento Efficientemente di Qualsiasi Cosa

Efficient Track Anything

Abstract

Support