Sa2VA: Casando SAM2 com LLaVA para uma Compreensão Densa e Fundamentada de Imagens e Vídeos

Resumo

Este trabalho apresenta o Sa2VA, o primeiro modelo unificado para compreensão densa e fundamentada de imagens e vídeos. Ao contrário dos modelos de linguagem grandes multimodais existentes, que frequentemente são limitados a modalidades e tarefas específicas, o Sa2VA suporta uma ampla gama de tarefas de imagem e vídeo, incluindo segmentação referencial e conversação, com ajuste mínimo de instrução em uma única etapa. O Sa2VA combina o SAM-2, um modelo de segmentação de vídeo fundamental, com o LLaVA, um modelo avançado de visão e linguagem, e unifica texto, imagem e vídeo em um espaço de token LLM compartilhado. Utilizando o LLM, o Sa2VA gera tokens de instrução que guiam o SAM-2 na produção de máscaras precisas, possibilitando uma compreensão fundamentada e multimodal de conteúdos visuais estáticos e dinâmicos. Adicionalmente, introduzimos o Ref-SAV, um conjunto de dados autoetiquetado contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, projetado para impulsionar o desempenho do modelo. Também validamos manualmente 2 mil objetos de vídeo nos conjuntos de dados Ref-SAV para avaliar a segmentação de objetos de vídeo referenciados em ambientes complexos. Experimentos mostram que o Sa2VA alcança o estado da arte em várias tarefas, especialmente na segmentação de objetos de vídeo referenciados, destacando seu potencial para aplicações complexas do mundo real.

English

This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

Sa2VA: Casando SAM2 com LLaVA para uma Compreensão Densa e Fundamentada de Imagens e Vídeos

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Resumo

Support