URECA: Descrizione Unica di Qualsiasi Regione

Abstract

La descrizione a livello di regione mira a generare descrizioni in linguaggio naturale per specifiche regioni di un'immagine, evidenziandone le caratteristiche distintive. Tuttavia, i metodi esistenti faticano a produrre descrizioni uniche su più livelli di granularità, limitandone l'applicabilità nel mondo reale. Per soddisfare l'esigenza di una comprensione dettagliata a livello di regione, introduciamo il dataset URECA, un dataset su larga scala progettato per la descrizione di regioni a più livelli di granularità. A differenza dei dataset precedenti che si concentrano principalmente su oggetti salienti, il dataset URECA garantisce una mappatura unica e coerente tra regioni e descrizioni, incorporando un insieme diversificato di oggetti, parti ed elementi di sfondo. Al centro di questo processo c'è una pipeline di curatela dei dati a stadi, in cui ogni stadio affina progressivamente la selezione delle regioni e la generazione delle descrizioni. Sfruttando i Modelli Linguistici Multimodali di Grande Scala (MLLMs) in ogni stadio, la nostra pipeline produce descrizioni distintive e contestualmente fondate, con una maggiore accuratezza e diversità semantica. Basandoci su questo dataset, presentiamo URECA, un nuovo modello di descrizione progettato per codificare efficacemente regioni a più livelli di granularità. URECA mantiene proprietà spaziali essenziali come posizione e forma attraverso modifiche semplici ma significative agli MLLMs esistenti, consentendo descrizioni di regioni dettagliate e semanticamente ricche. Il nostro approccio introduce la modellazione dinamica delle maschere e un codificatore di maschere ad alta risoluzione per migliorare l'unicità delle descrizioni. Gli esperimenti dimostrano che URECA raggiunge prestazioni all'avanguardia sul dataset URECA e si generalizza bene ai benchmark esistenti per la descrizione a livello di regione.

English

Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

URECA: Descrizione Unica di Qualsiasi Regione

URECA: Unique Region Caption Anything

Abstract

Summary

Support

Support