ChatPaper.aiChatPaper

모두를 분할하는 하나의 토큰: 비디오에서의 언어 지시된 추론 분할

One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos

September 29, 2024
저자: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI

초록

우리는 비디오 기반 다중 모달 대형 언어 모델 VideoLISA를 소개합니다. 이 모델은 비디오에서 언어 지시에 따른 추론 세분화 문제를 해결하기 위해 설계되었습니다. 대형 언어 모델의 추론 능력과 세그먼트 어떤 것 모델의 성능을 활용하고, VideoLISA는 언어 지시에 기반한 비디오 내에서 시간적으로 일관된 세분화 마스크를 생성합니다. LISA와 같은 기존의 이미지 기반 방법은 추가적인 시간적 차원으로 인해 비디오 작업에 어려움을 겪는데, 이는 시간적 동적 이해와 프레임 간 일관된 세분화를 요구합니다. VideoLISA는 이러한 도전에 대응하기 위해 비디오-LLM에 희소 밀집 샘플링 전략을 통합하여 계산 제약 내에서 시간적 맥락과 공간 세부 정보를 균형 있게 유지합니다. 게다가, 우리는 특별히 설계된 <TRK> 토큰을 활용한 One-Token-Seg-All 접근 방식을 제안하여 모델이 여러 프레임을 통해 객체를 세분화하고 추적할 수 있도록 합니다. 새롭게 소개된 ReasonVOS 벤치마크를 포함한 다양한 벤치마크에서의 광범위한 평가는 VideoLISA가 복잡한 추론, 시간적 이해 및 객체 추적이 포함된 비디오 객체 세분화 작업에서 우수한 성능을 보여줍니다. 비디오에 최적화되었지만, VideoLISA는 이미지 세분화로의 일반화 가능성을 보여주며, 언어 지시 객체 세분화를 위한 통합 기반 모델로의 잠재력을 드러냅니다. 코드와 모델은 다음에서 이용 가능합니다: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model designed to tackle the problem of language-instructed reasoning segmentation in videos. Leveraging the reasoning capabilities and world knowledge of large language models, and augmented by the Segment Anything Model, VideoLISA generates temporally consistent segmentation masks in videos based on language instructions. Existing image-based methods, such as LISA, struggle with video tasks due to the additional temporal dimension, which requires temporal dynamic understanding and consistent segmentation across frames. VideoLISA addresses these challenges by integrating a Sparse Dense Sampling strategy into the video-LLM, which balances temporal context and spatial detail within computational constraints. Additionally, we propose a One-Token-Seg-All approach using a specially designed <TRK> token, enabling the model to segment and track objects across multiple frames. Extensive evaluations on diverse benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate VideoLISA's superior performance in video object segmentation tasks involving complex reasoning, temporal understanding, and object tracking. While optimized for videos, VideoLISA also shows promising generalization to image segmentation, revealing its potential as a unified foundation model for language-instructed object segmentation. Code and model will be available at: https://github.com/showlab/VideoLISA.

Summary

AI-Generated Summary

PDF193November 13, 2024