SAM2Long: 훈련 없이 메모리 트리를 사용하여 장기 비디오 세그멘테이션을 위한 SAM 2 개선
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
October 21, 2024
저자: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI
초록
Segment Anything Model 2 (SAM 2)은 이미지와 비디오에서 물체 분할을 위한 강력한 기초 모델로 등장하여, 다양한 하위 비디오 응용 프로그램을 위한 길을 열었습니다. 비디오 분할을 위한 SAM 2의 중요한 설계는 현재 프레임 예측을 위해 이전 프레임에서 물체 인식 메모리를 유도하는 메모리 모듈입니다. 그러나 그것의 탐욕스러운 선택 메모리 설계는 "오류 누적" 문제에 시달리며, 오류가 있는 또는 누락된 마스크가 연쇄적으로 영향을 미쳐 다음 프레임의 분할에 영향을 줄 수 있어 SAM 2의 성능을 복잡한 장기 비디오로 제한합니다. 이에 우리는 향상된 훈련 불필요 비디오 물체 분할 전략인 SAM2Long을 소개합니다. 이는 각 프레임 내의 분할 불확실성을 고려하고 제한된 트리 탐색 방식으로 여러 분할 경로에서 비디오 수준의 최적 결과를 선택합니다. 실제로 우리는 비디오 전체를 통해 일정 수의 분할 경로를 유지합니다. 각 프레임마다 기존 경로를 기반으로 여러 마스크가 제안되어 다양한 후보 분기를 생성합니다. 그런 다음 누적 점수가 더 높은 동일한 수의 분기를 다음 프레임의 새 경로로 선택합니다. 최종 프레임을 처리한 후 누적 점수가 가장 높은 경로가 최종 분할 결과로 선택됩니다. 휴리스틱 탐색 설계 덕분에 SAM2Long은 가려짐과 물체 재출현에 강하며 복잡한 장기 비디오의 물체를 효과적으로 분할하고 추적할 수 있습니다. 특히 SAM2Long은 SA-V 및 LVOS와 같은 장기 비디오 물체 분할 벤치마크에서 J&F에서 최대 5.3 포인트의 이득을 포함하여 모든 24개의 헤드 투 헤드 비교에서 평균 3.0 포인트의 향상을 달성합니다. 코드는 https://github.com/Mark12Ding/SAM2Long에서 공개되었습니다.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation
model for object segmentation in both images and videos, paving the way for
various downstream video applications. The crucial design of SAM 2 for video
segmentation is its memory module, which prompts object-aware memories from
previous frames for current frame prediction. However, its greedy-selection
memory design suffers from the "error accumulation" problem, where an errored
or missed mask will cascade and influence the segmentation of the subsequent
frames, which limits the performance of SAM 2 toward complex long-term videos.
To this end, we introduce SAM2Long, an improved training-free video object
segmentation strategy, which considers the segmentation uncertainty within each
frame and chooses the video-level optimal results from multiple segmentation
pathways in a constrained tree search manner. In practice, we maintain a fixed
number of segmentation pathways throughout the video. For each frame, multiple
masks are proposed based on the existing pathways, creating various candidate
branches. We then select the same fixed number of branches with higher
cumulative scores as the new pathways for the next frame. After processing the
final frame, the pathway with the highest cumulative score is chosen as the
final segmentation result. Benefiting from its heuristic search design,
SAM2Long is robust toward occlusions and object reappearances, and can
effectively segment and track objects for complex long-term videos. Notably,
SAM2Long achieves an average improvement of 3.0 points across all 24
head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term
video object segmentation benchmarks such as SA-V and LVOS. The code is
released at https://github.com/Mark12Ding/SAM2Long.Summary
AI-Generated Summary