Sa2VA: Sposare SAM2 con LLaVA per una comprensione densa e basata del terreno di immagini e video
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
Autori: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
Abstract
Questo lavoro presenta Sa2VA, il primo modello unificato per una comprensione densa e basata su contesto sia di immagini che di video. A differenza dei modelli linguistici multi-modalità esistenti, che spesso sono limitati a modalità e compiti specifici, Sa2VA supporta una vasta gamma di compiti per immagini e video, inclusi segmentazione di riferimento e conversazione, con un minimo sintonizzazione istantanea. Sa2VA combina SAM-2, un modello di segmentazione video di base, con LLaVA, un modello avanzato di visione-linguaggio, e unifica testo, immagine e video in uno spazio di token LLM condiviso. Utilizzando il LLM, Sa2VA genera token di istruzione che guidano SAM-2 nella produzione di maschere precise, consentendo una comprensione basata su contesto e multi-modalità sia dei contenuti visivi statici che dinamici. Inoltre, introduciamo Ref-SAV, un dataset auto-etichettato contenente oltre 72k espressioni di oggetti in scene video complesse, progettato per migliorare le prestazioni del modello. Validiamo anche manualmente 2k oggetti video nei dataset Ref-SAV per valutare la segmentazione di oggetti video di riferimento in ambienti complessi. Gli esperimenti mostrano che Sa2VA raggiunge lo stato dell'arte su diversi compiti, in particolare nella segmentazione di oggetti video di riferimento, evidenziando il suo potenziale per applicazioni reali complesse.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary