Sa2VA: Casando SAM2 com LLaVA para uma Compreensão Densa e Fundamentada de Imagens e Vídeos
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
Autores: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
Resumo
Este trabalho apresenta o Sa2VA, o primeiro modelo unificado para compreensão densa e fundamentada de imagens e vídeos. Ao contrário dos modelos de linguagem grandes multimodais existentes, que frequentemente são limitados a modalidades e tarefas específicas, o Sa2VA suporta uma ampla gama de tarefas de imagem e vídeo, incluindo segmentação referencial e conversação, com ajuste mínimo de instrução em uma única etapa. O Sa2VA combina o SAM-2, um modelo de segmentação de vídeo fundamental, com o LLaVA, um modelo avançado de visão e linguagem, e unifica texto, imagem e vídeo em um espaço de token LLM compartilhado. Utilizando o LLM, o Sa2VA gera tokens de instrução que guiam o SAM-2 na produção de máscaras precisas, possibilitando uma compreensão fundamentada e multimodal de conteúdos visuais estáticos e dinâmicos. Adicionalmente, introduzimos o Ref-SAV, um conjunto de dados autoetiquetado contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, projetado para impulsionar o desempenho do modelo. Também validamos manualmente 2 mil objetos de vídeo nos conjuntos de dados Ref-SAV para avaliar a segmentação de objetos de vídeo referenciados em ambientes complexos. Experimentos mostram que o Sa2VA alcança o estado da arte em várias tarefas, especialmente na segmentação de objetos de vídeo referenciados, destacando seu potencial para aplicações complexas do mundo real.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary