효율적인 물체 추적
Efficient Track Anything
November 28, 2024
저자: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
초록
Segment Anything Model 2 (SAM 2)은 비디오 객체 분할 및 추적에 강력한 도구로 부상했습니다. SAM 2의 주요 구성 요소는 프레임 특징 추출을 위한 대규모 다단계 이미지 인코더와 현재 프레임 분할을 돕기 위해 지난 프레임에서 메모리 컨텍스트를 저장하는 메모리 메커니즘을 포함합니다. 다단계 이미지 인코더와 메모리 모듈의 높은 계산 복잡성으로 실제 세계 작업, 예를 들어 모바일 장치에서의 비디오 객체 분할, 응용이 제한되었습니다. 이 한계를 해결하기 위해 저희는 효율적인 메모리 모듈을 도입하여 낮은 지연 시간과 모델 크기로 높은 품질의 결과를 제공하는 경량 추적 모델인 EfficientTAMs를 제안합니다. 저희 아이디어는 비디오 객체 분할을 위한 이미지 인코더로서 일반적이고 비계층적인 Vision Transformer (ViT)을 재방문하고, 현재 프레임 분할을 위한 프레임 특징 추출 및 메모리 계산의 복잡성을 줄이는 효율적인 메모리 모듈을 도입하는 데 기반합니다. 저희는 일반적인 경량 ViTs와 효율적인 메모리 모듈을 사용하여 EfficientTAMs를 구축하고, 비디오 객체 분할 및 추적 작업을 위해 SA-1B 및 SA-V 데이터셋에서 모델을 훈련합니다. 저희는 반지도 학습 VOS 및 promptable 비디오 분할을 포함한 여러 비디오 분할 벤치마크에서 평가하고, 제안된 EfficientTAM이 A100에서 약 2배의 속도 향상 및 약 2.4배의 매개변수 감소로 HieraB+SAM 2 모델과 유사한 성능을 발휘한다는 것을 발견했습니다. Segment anything 이미지 작업에서도 EfficientTAMs가 A100에서 약 20배의 속도 향상 및 약 20배의 매개변수 감소로 원래 SAM보다 유리한 성과를 보입니다. iPhone 15 Pro Max와 같은 모바일 장치에서, EfficientTAMs는 합리적인 품질로 비디오 객체 분할을 수행하기 위해 약 10 FPS로 실행될 수 있으며, 소형 모델이 장치 내 비디오 객체 분할 응용에 대한 능력을 강조합니다.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary