ReferEverything: 비디오에서 언급할 수 있는 모든 것을 분할하는 방향으로
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos
October 30, 2024
저자: Anurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert
cs.AI
초록
우리는 REM을 제시합니다. 이는 자연어로 설명할 수 있는 다양한 개념을 비디오에서 세분화하는 프레임워크입니다. 우리의 방법은 인터넷 규모의 데이터셋에서 비디오 확산 모델에 의해 학습된 시각-언어 표현을 활용합니다. 우리 접근 방식의 중요한 통찰력은 생성 모델의 원래 표현을 최대한 보존하면서, 좁은 영역의 Referral Object Segmentation 데이터셋에서 세부 조정하는 것입니다. 결과적으로, 우리의 프레임워크는 한정된 범주의 객체 마스크로 훈련되었음에도 드문하고 보이지 않는 객체를 정확하게 세분화하고 추적할 수 있습니다. 게다가, 우리의 새롭게 소개된 Referral Video Process Segmentation (Ref-VPS) 벤치마크에서 보여주는 것처럼, 파도가 바다에 부딪히는 등 비객체 동적 개념으로 일반화할 수 있습니다. 우리의 실험 결과 REM은 Ref-DAVIS와 같은 도메인 내 데이터셋에서 최첨단 접근 방식과 유사한 성능을 발휘하며, 도메인 밖 데이터에서 영역 유사성 측면에서 최대 12점까지 뛰어난 결과를 보여주며 인터넷 규모 사전 훈련의 힘을 활용합니다.
English
We present REM, a framework for segmenting a wide range of concepts in video
that can be described through natural language. Our method capitalizes on
visual-language representations learned by video diffusion models on
Internet-scale datasets. A key insight of our approach is preserving as much of
the generative model's original representation as possible, while fine-tuning
it on narrow-domain Referral Object Segmentation datasets. As a result, our
framework can accurately segment and track rare and unseen objects, despite
being trained on object masks from a limited set of categories. Additionally,
it can generalize to non-object dynamic concepts, such as waves crashing in the
ocean, as demonstrated in our newly introduced benchmark for Referral Video
Process Segmentation (Ref-VPS). Our experiments show that REM performs on par
with state-of-the-art approaches on in-domain datasets, like Ref-DAVIS, while
outperforming them by up to twelve points in terms of region similarity on
out-of-domain data, leveraging the power of Internet-scale pre-training.Summary
AI-Generated Summary