ChatPaper.aiChatPaper

Omni-RGPT: 토큰 마크를 통해 이미지 및 비디오 영역 수준의 이해 통합

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

January 14, 2025
저자: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI

초록

우리는 이미지와 비디오 모두에 대한 영역 수준 이해를 용이하게 하는 다중 모달 대형 언어 모델인 Omni-RGPT를 제안합니다. 시공간 차원 전반에 걸쳐 일관된 영역 표현을 달성하기 위해 시각적 특징 공간 내에서 대상 영역을 강조하는 일련의 토큰인 토큰 마크를 소개합니다. 이러한 토큰들은 시각적 특징 공간 내의 공간적 영역에 직접 포함되며, 동시에 텍스트 토큰에 포함되어 대상을 지정하여 시각적 및 텍스트 토큰 간의 직접적인 연결을 설정합니다. 트랙렛을 필요로 하지 않고 안정적인 영상 해석을 가능케 하는 보조 작업을 통해 토큰 마크를 안정적으로 이용하는 보조 작업을 소개합니다. 또한 대규모 영역 수준 비디오 지시 데이터 세트(RegVID-300k)를 소개합니다. Omni-RGPT는 이미지 및 비디오 기반 상식 추론 벤치마크에서 최첨단 결과를 달성하면서 캡션 생성 및 참조 표현 이해 작업에서 강력한 성능을 보여줍니다.
English
We present Omni-RGPT, a multimodal large language model designed to facilitate region-level comprehension for both images and videos. To achieve consistent region representation across spatio-temporal dimensions, we introduce Token Mark, a set of tokens highlighting the target regions within the visual feature space. These tokens are directly embedded into spatial regions using region prompts (e.g., boxes or masks) and simultaneously incorporated into the text prompt to specify the target, establishing a direct connection between visual and text tokens. To further support robust video understanding without requiring tracklets, we introduce an auxiliary task that guides Token Mark by leveraging the consistency of the tokens, enabling stable region interpretation across the video. Additionally, we introduce a large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT achieves state-of-the-art results on image and video-based commonsense reasoning benchmarks while showing strong performance in captioning and referring expression comprehension tasks.

Summary

AI-Generated Summary

PDF322January 15, 2025