Descrivere Ogni Elemento in un Video: Descrizione Fine-Grained Centrata sugli Oggetti tramite Prompting Spaziotemporale Multimodale
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting
April 7, 2025
Autori: Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu
cs.AI
Abstract
Presentiamo CAT-V (Caption AnyThing in Video), un framework senza necessità di addestramento per la descrizione video centrata su oggetti a grana fine, che consente descrizioni dettagliate di oggetti selezionati dall'utente nel tempo. CAT-V integra tre componenti chiave: un Segmenter basato su SAMURAI per la segmentazione precisa degli oggetti attraverso i fotogrammi, un Temporal Analyzer alimentato da TRACE-Uni per il rilevamento accurato dei confini degli eventi e l'analisi temporale, e un Captioner che utilizza InternVL-2.5 per generare descrizioni dettagliate centrate sugli oggetti. Attraverso prompt visivi spaziotemporali e ragionamento a catena di pensiero, il nostro framework genera descrizioni dettagliate e temporalmente consapevoli degli attributi, delle azioni, degli stati, delle interazioni e dei contesti ambientali degli oggetti, senza richiedere dati di addestramento aggiuntivi. CAT-V supporta interazioni flessibili dell'utente attraverso vari prompt visivi (punti, riquadri di delimitazione e regioni irregolari) e mantiene la sensibilità temporale monitorando gli stati e le interazioni degli oggetti attraverso diversi segmenti temporali. Il nostro approccio affronta le limitazioni dei metodi esistenti di descrizione video, che producono descrizioni eccessivamente astratte o mancano di precisione a livello di oggetto, consentendo descrizioni specifiche e a grana fine degli oggetti mantenendo coerenza temporale e accuratezza spaziale. Il repository GitHub per questo progetto è disponibile all'indirizzo https://github.com/yunlong10/CAT-V.
English
We present CAT-V (Caption AnyThing in Video), a training-free framework for
fine-grained object-centric video captioning that enables detailed descriptions
of user-selected objects through time. CAT-V integrates three key components: a
Segmenter based on SAMURAI for precise object segmentation across frames, a
Temporal Analyzer powered by TRACE-Uni for accurate event boundary detection
and temporal analysis, and a Captioner using InternVL-2.5 for generating
detailed object-centric descriptions. Through spatiotemporal visual prompts and
chain-of-thought reasoning, our framework generates detailed, temporally-aware
descriptions of objects' attributes, actions, statuses, interactions, and
environmental contexts without requiring additional training data. CAT-V
supports flexible user interactions through various visual prompts (points,
bounding boxes, and irregular regions) and maintains temporal sensitivity by
tracking object states and interactions across different time segments. Our
approach addresses limitations of existing video captioning methods, which
either produce overly abstract descriptions or lack object-level precision,
enabling fine-grained, object-specific descriptions while maintaining temporal
coherence and spatial accuracy. The GitHub repository for this project is
available at https://github.com/yunlong10/CAT-VSummary
AI-Generated Summary