SAM2Long : Amélioration de SAM 2 pour la segmentation longue de vidéos avec un arbre de mémoire sans entraînement.
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
October 21, 2024
Auteurs: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
Le Modèle Segment Anything 2 (SAM 2) s'est imposé comme un modèle fondamental puissant pour la segmentation d'objets dans les images et les vidéos, ouvrant la voie à diverses applications vidéo ultérieures. La conception cruciale de SAM 2 pour la segmentation vidéo réside dans son module de mémoire, qui génère des mémoires conscientes des objets à partir des images précédentes pour la prédiction de l'image actuelle. Cependant, sa conception de mémoire de sélection gourmande souffre du problème d' "accumulation d'erreurs", où un masque erroné ou manqué va se propager et influencer la segmentation des images suivantes, limitant ainsi les performances de SAM 2 pour les vidéos complexes à long terme. Pour remédier à cela, nous présentons SAM2Long, une stratégie améliorée de segmentation d'objets vidéo sans entraînement, qui prend en compte l'incertitude de segmentation dans chaque image et choisit les résultats optimaux au niveau de la vidéo à partir de multiples voies de segmentation de manière contrainte par recherche arborescente. En pratique, nous maintenons un nombre fixe de voies de segmentation tout au long de la vidéo. Pour chaque image, plusieurs masques sont proposés en fonction des voies existantes, créant ainsi diverses branches candidates. Ensuite, nous sélectionnons le même nombre fixe de branches avec des scores cumulatifs plus élevés comme nouvelles voies pour l'image suivante. Après le traitement de l'image finale, la voie avec le score cumulatif le plus élevé est choisie comme résultat final de segmentation. Grâce à sa conception de recherche heuristique, SAM2Long est robuste face aux occultations et aux réapparitions d'objets, et peut segmenter et suivre efficacement les objets pour des vidéos complexes à long terme. Notamment, SAM2Long obtient une amélioration moyenne de 3,0 points dans l'ensemble des 24 comparaisons directes, avec des gains allant jusqu'à 5,3 points en J&F sur des référentiels de segmentation d'objets vidéo à long terme tels que SA-V et LVOS. Le code est disponible sur https://github.com/Mark12Ding/SAM2Long.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation
model for object segmentation in both images and videos, paving the way for
various downstream video applications. The crucial design of SAM 2 for video
segmentation is its memory module, which prompts object-aware memories from
previous frames for current frame prediction. However, its greedy-selection
memory design suffers from the "error accumulation" problem, where an errored
or missed mask will cascade and influence the segmentation of the subsequent
frames, which limits the performance of SAM 2 toward complex long-term videos.
To this end, we introduce SAM2Long, an improved training-free video object
segmentation strategy, which considers the segmentation uncertainty within each
frame and chooses the video-level optimal results from multiple segmentation
pathways in a constrained tree search manner. In practice, we maintain a fixed
number of segmentation pathways throughout the video. For each frame, multiple
masks are proposed based on the existing pathways, creating various candidate
branches. We then select the same fixed number of branches with higher
cumulative scores as the new pathways for the next frame. After processing the
final frame, the pathway with the highest cumulative score is chosen as the
final segmentation result. Benefiting from its heuristic search design,
SAM2Long is robust toward occlusions and object reappearances, and can
effectively segment and track objects for complex long-term videos. Notably,
SAM2Long achieves an average improvement of 3.0 points across all 24
head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term
video object segmentation benchmarks such as SA-V and LVOS. The code is
released at https://github.com/Mark12Ding/SAM2Long.Summary
AI-Generated Summary