Tracciamento Efficientemente di Qualsiasi Cosa
Efficient Track Anything
November 28, 2024
Autori: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
Abstract
Il Modello Segment Anything 2 (SAM 2) si è imposto come uno strumento potente per la segmentazione degli oggetti nei video e il tracciamento di qualsiasi cosa. I componenti chiave di SAM 2 che guidano le prestazioni impressionanti nella segmentazione degli oggetti nei video includono un ampio codificatore di immagini multistadio per l'estrazione delle caratteristiche dei frame e un meccanismo di memoria che memorizza contesti di memoria dai frame passati per aiutare la segmentazione del frame corrente. L'alta complessità computazionale del codificatore di immagini multistadio e del modulo di memoria ha limitato le sue applicazioni in compiti del mondo reale, ad esempio la segmentazione degli oggetti nei video su dispositivi mobili. Per affrontare questa limitazione, proponiamo EfficientTAMs, modelli leggeri per tracciare qualsiasi cosa che producono risultati di alta qualità con bassa latenza e dimensioni del modello ridotte. La nostra idea si basa nel ripensare il Vision Transformer (ViT) semplice e non gerarchico come codificatore di immagini per la segmentazione degli oggetti nei video, e nell'introdurre un modulo di memoria efficiente, che riduce la complessità sia per l'estrazione delle caratteristiche del frame che per il calcolo della memoria per la segmentazione del frame corrente. Utilizziamo ViTs leggeri e un modulo di memoria efficiente per costruire EfficientTAMs, e addestriamo i modelli sui dataset SA-1B e SA-V per la segmentazione degli oggetti nei video e i compiti di tracciamento di qualsiasi cosa. Valutiamo su diversi benchmark di segmentazione video, inclusi VOS semi-supervisionati e segmentazione video promptable, e scopriamo che il nostro EfficientTAM proposto con ViT semplice si comporta in modo comparabile al modello SAM 2 (HieraB+SAM 2) con un'accelerazione di circa 2 volte su A100 e una riduzione dei parametri di circa 2,4 volte. Nei compiti di immagine di segmentazione di qualsiasi cosa, i nostri EfficientTAMs si comportano anche in modo favorevole rispetto al SAM originale con un'accelerazione di circa 20 volte su A100 e una riduzione dei parametri di circa 20 volte. Su dispositivi mobili come iPhone 15 Pro Max, i nostri EfficientTAMs possono funzionare a circa 10 FPS per eseguire la segmentazione degli oggetti nei video con una qualità ragionevole, evidenziando la capacità dei modelli ridotti per le applicazioni di segmentazione degli oggetti nei video su dispositivi.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary