SOTTOTITOLO: Descrizione Compositiva delle Immagini Concentrandosi Ovunque Tu Desideri a Qualsiasi Livello di Granularità
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Autori: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Abstract
L'avvento dei grandi Modelli Visione-Linguaggio (VLM) ha notevolmente avanzato le attività multimodali, consentendo un ragionamento più sofisticato e accurato attraverso varie applicazioni, tra cui la descrizione di immagini e video, la risposta a domande visive e il recupero cross-modale. Nonostante le loro capacità superiori, i VLM faticano con la percezione delle informazioni sulla composizione regionale dettagliata delle immagini. In particolare, hanno difficoltà nell'allineare con precisione le maschere di segmentazione con le semantica corrispondenti e nel descrivere con precisione gli aspetti compositivi delle regioni citate.
Tuttavia, la composizionalità - la capacità di comprendere e generare nuove combinazioni di componenti visivi e testuali conosciuti - è fondamentale per facilitare un ragionamento coerente e la comprensione tra modalità da parte dei VLM. Per affrontare questo problema, proponiamo FINECAPTION, un nuovo VLM in grado di riconoscere maschere arbitrarie come input referenziali e elaborare immagini ad alta risoluzione per la descrizione compositiva delle immagini a diversi livelli di granularità. Per sostenere questo sforzo, introduciamo COMPOSITIONCAP, un nuovo dataset per la descrizione compositiva delle immagini a livello di regione multigranulare, che introduce il compito di descrizione compositiva consapevole degli attributi regionali.
I risultati empirici dimostrano l'efficacia del nostro modello proposto rispetto ad altri VLM all'avanguardia. Inoltre, analizziamo le capacità dei VLM attuali nel riconoscere vari stimoli visivi per la descrizione compositiva delle regioni, evidenziando aree per il miglioramento nel design e nell'addestramento dei VLM.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary