SAM2Long: 훈련 없이 메모리 트리를 사용하여 장기 비디오 세그멘테이션을 위한 SAM 2 개선

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

October 21, 2024
저자: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI

초록

Segment Anything Model 2 (SAM 2)은 이미지와 비디오에서 물체 분할을 위한 강력한 기초 모델로 등장하여, 다양한 하위 비디오 응용 프로그램을 위한 길을 열었습니다. 비디오 분할을 위한 SAM 2의 중요한 설계는 현재 프레임 예측을 위해 이전 프레임에서 물체 인식 메모리를 유도하는 메모리 모듈입니다. 그러나 그것의 탐욕스러운 선택 메모리 설계는 "오류 누적" 문제에 시달리며, 오류가 있는 또는 누락된 마스크가 연쇄적으로 영향을 미쳐 다음 프레임의 분할에 영향을 줄 수 있어 SAM 2의 성능을 복잡한 장기 비디오로 제한합니다. 이에 우리는 향상된 훈련 불필요 비디오 물체 분할 전략인 SAM2Long을 소개합니다. 이는 각 프레임 내의 분할 불확실성을 고려하고 제한된 트리 탐색 방식으로 여러 분할 경로에서 비디오 수준의 최적 결과를 선택합니다. 실제로 우리는 비디오 전체를 통해 일정 수의 분할 경로를 유지합니다. 각 프레임마다 기존 경로를 기반으로 여러 마스크가 제안되어 다양한 후보 분기를 생성합니다. 그런 다음 누적 점수가 더 높은 동일한 수의 분기를 다음 프레임의 새 경로로 선택합니다. 최종 프레임을 처리한 후 누적 점수가 가장 높은 경로가 최종 분할 결과로 선택됩니다. 휴리스틱 탐색 설계 덕분에 SAM2Long은 가려짐과 물체 재출현에 강하며 복잡한 장기 비디오의 물체를 효과적으로 분할하고 추적할 수 있습니다. 특히 SAM2Long은 SA-V 및 LVOS와 같은 장기 비디오 물체 분할 벤치마크에서 J&F에서 최대 5.3 포인트의 이득을 포함하여 모든 24개의 헤드 투 헤드 비교에서 평균 3.0 포인트의 향상을 달성합니다. 코드는 https://github.com/Mark12Ding/SAM2Long에서 공개되었습니다.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

Summary

AI-Generated Summary

PDF652November 16, 2024