Descrivere Ogni Elemento in un Video: Descrizione Fine-Grained Centrata sugli Oggetti tramite Prompting Spaziotemporale Multimodale

Abstract

Presentiamo CAT-V (Caption AnyThing in Video), un framework senza necessità di addestramento per la descrizione video centrata su oggetti a grana fine, che consente descrizioni dettagliate di oggetti selezionati dall'utente nel tempo. CAT-V integra tre componenti chiave: un Segmenter basato su SAMURAI per la segmentazione precisa degli oggetti attraverso i fotogrammi, un Temporal Analyzer alimentato da TRACE-Uni per il rilevamento accurato dei confini degli eventi e l'analisi temporale, e un Captioner che utilizza InternVL-2.5 per generare descrizioni dettagliate centrate sugli oggetti. Attraverso prompt visivi spaziotemporali e ragionamento a catena di pensiero, il nostro framework genera descrizioni dettagliate e temporalmente consapevoli degli attributi, delle azioni, degli stati, delle interazioni e dei contesti ambientali degli oggetti, senza richiedere dati di addestramento aggiuntivi. CAT-V supporta interazioni flessibili dell'utente attraverso vari prompt visivi (punti, riquadri di delimitazione e regioni irregolari) e mantiene la sensibilità temporale monitorando gli stati e le interazioni degli oggetti attraverso diversi segmenti temporali. Il nostro approccio affronta le limitazioni dei metodi esistenti di descrizione video, che producono descrizioni eccessivamente astratte o mancano di precisione a livello di oggetto, consentendo descrizioni specifiche e a grana fine degli oggetti mantenendo coerenza temporale e accuratezza spaziale. Il repository GitHub per questo progetto è disponibile all'indirizzo https://github.com/yunlong10/CAT-V.

English

We present CAT-V (Caption AnyThing in Video), a training-free framework for fine-grained object-centric video captioning that enables detailed descriptions of user-selected objects through time. CAT-V integrates three key components: a Segmenter based on SAMURAI for precise object segmentation across frames, a Temporal Analyzer powered by TRACE-Uni for accurate event boundary detection and temporal analysis, and a Captioner using InternVL-2.5 for generating detailed object-centric descriptions. Through spatiotemporal visual prompts and chain-of-thought reasoning, our framework generates detailed, temporally-aware descriptions of objects' attributes, actions, statuses, interactions, and environmental contexts without requiring additional training data. CAT-V supports flexible user interactions through various visual prompts (points, bounding boxes, and irregular regions) and maintains temporal sensitivity by tracking object states and interactions across different time segments. Our approach addresses limitations of existing video captioning methods, which either produce overly abstract descriptions or lack object-level precision, enabling fine-grained, object-specific descriptions while maintaining temporal coherence and spatial accuracy. The GitHub repository for this project is available at https://github.com/yunlong10/CAT-V

Descrivere Ogni Elemento in un Video: Descrizione Fine-Grained Centrata sugli Oggetti tramite Prompting Spaziotemporale Multimodale

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Abstract

Summary

Support

Support