Sa2VA: 이미지와 비디오의 밀도 있는 그라운드 이해를 위해 SAM2와 LLaVA를 결합하기
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
저자: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
초록
본 연구는 이미지와 비디오에 대한 밀도 있는 그라운드 이해를 위한 최초의 통합 모델인 Sa2VA를 제안합니다. 기존의 다중 모달 대형 언어 모델과 달리, 종종 특정 모달리티와 작업에 제한된 모델들과는 달리, Sa2VA는 참조 분할 및 대화를 포함한 다양한 이미지 및 비디오 작업을 지원하며, 최소한의 원샷 지시 조정을 통해 이를 실현합니다. Sa2VA는 기본 비디오 분할 모델인 SAM-2와 고급 비전-언어 모델인 LLaVA를 결합하고, 텍스트, 이미지 및 비디오를 공유된 LLM 토큰 공간으로 통합합니다. LLM을 사용하여 Sa2VA는 SAM-2를 안내하는 지시 토큰을 생성하여 정확한 마스크를 생성하며, 정적 및 동적 시각적 콘텐츠의 그라운드된 다중 모달 이해를 가능하게 합니다. 더불어, 본 연구에서는 복잡한 비디오 장면에서 72,000개 이상의 객체 표현을 포함하는 Ref-SAV 자동 레이블 데이터셋을 소개하여 모델 성능을 향상시킵니다. 또한, 복잡한 환경에서 참조 비디오 객체 분할을 벤치마킹하기 위해 Ref-SAV 데이터셋에서 2,000개의 비디오 객체를 수동으로 유효성을 검사합니다. 실험 결과, Sa2VA는 여러 작업에서 최첨단 성능을 달성하며, 특히 참조 비디오 객체 분할에서 뛰어난 성과를 보여 복잡한 현실 세계 응용 가능성을 강조합니다.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary