Omni-RGPT: Unificando a Compreensão em Nível de Região de Imagens e Vídeos por Meio de Marcas de Token
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
January 14, 2025
Autores: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Resumo
Apresentamos o Omni-RGPT, um grande modelo de linguagem multimodal projetado para facilitar a compreensão em nível de região tanto para imagens quanto para vídeos. Para alcançar uma representação consistente da região em dimensões espaço-temporais, introduzimos o Token Mark, um conjunto de tokens que destacam as regiões-alvo dentro do espaço de características visuais. Esses tokens são incorporados diretamente em regiões espaciais usando prompts de região (por exemplo, caixas ou máscaras) e simultaneamente incorporados no prompt de texto para especificar o alvo, estabelecendo uma conexão direta entre os tokens visuais e de texto. Para apoiar ainda mais a compreensão robusta de vídeos sem exigir trilhas, introduzimos uma tarefa auxiliar que orienta o Token Mark aproveitando a consistência dos tokens, permitindo uma interpretação estável da região em todo o vídeo. Além disso, introduzimos um conjunto de dados de instruções de vídeo em nível de região em grande escala (RegVID-300k). O Omni-RGPT alcança resultados de ponta em benchmarks de raciocínio comum baseados em imagens e vídeos, mostrando forte desempenho em tarefas de legenda e compreensão de expressões de referência.
English
We present Omni-RGPT, a multimodal large language model designed to
facilitate region-level comprehension for both images and videos. To achieve
consistent region representation across spatio-temporal dimensions, we
introduce Token Mark, a set of tokens highlighting the target regions within
the visual feature space. These tokens are directly embedded into spatial
regions using region prompts (e.g., boxes or masks) and simultaneously
incorporated into the text prompt to specify the target, establishing a direct
connection between visual and text tokens. To further support robust video
understanding without requiring tracklets, we introduce an auxiliary task that
guides Token Mark by leveraging the consistency of the tokens, enabling stable
region interpretation across the video. Additionally, we introduce a
large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT
achieves state-of-the-art results on image and video-based commonsense
reasoning benchmarks while showing strong performance in captioning and
referring expression comprehension tasks.Summary
AI-Generated Summary