Omni-RGPT: トークンマークを介した画像とビデオの領域レベル理解の統合
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
January 14, 2025
著者: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
要旨
Omni-RGPTは、画像と動画の両方における領域レベルの理解を促進するために設計されたマルチモーダルな大規模言語モデルを提案します。時空間次元全体で一貫した領域表現を実現するために、視覚特徴空間内の対象領域を強調する一連のトークンであるToken Markを導入します。これらのトークンは、視覚的な領域プロンプト(たとえば、ボックスやマスク)を使用して空間領域に直接埋め込まれ、同時にテキストプロンプトに組み込まれ、対象を指定するためのテキストトークンとの間に直接的な接続を確立します。トラックレットを必要とせずに堅牢なビデオ理解をさらにサポートするために、トークンの一貫性を活用してToken Markをガイドする補助タスクを導入し、ビデオ全体で安定した領域の解釈を可能にします。さらに、大規模な領域レベルのビデオインストラクションデータセット(RegVID-300k)を導入します。Omni-RGPTは、画像およびビデオベースの常識推論ベンチマークで最先端の結果を達成し、キャプショニングや参照表現理解タスクでも強力なパフォーマンスを示しています。
English
We present Omni-RGPT, a multimodal large language model designed to
facilitate region-level comprehension for both images and videos. To achieve
consistent region representation across spatio-temporal dimensions, we
introduce Token Mark, a set of tokens highlighting the target regions within
the visual feature space. These tokens are directly embedded into spatial
regions using region prompts (e.g., boxes or masks) and simultaneously
incorporated into the text prompt to specify the target, establishing a direct
connection between visual and text tokens. To further support robust video
understanding without requiring tracklets, we introduce an auxiliary task that
guides Token Mark by leveraging the consistency of the tokens, enabling stable
region interpretation across the video. Additionally, we introduce a
large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT
achieves state-of-the-art results on image and video-based commonsense
reasoning benchmarks while showing strong performance in captioning and
referring expression comprehension tasks.Summary
AI-Generated Summary