Verso una Descrizione di Immagini Iper-Dettagliata Robusta: Un Approccio Multiagente e Metriche di Valutazione Duali per la Fattualità e la Copertura

Abstract

I modelli di linguaggio multimodali di grandi dimensioni (MLLM) eccellono nella generazione di didascalie altamente dettagliate ma spesso producono allucinazioni. La nostra analisi rivela che i metodi esistenti per rilevare le allucinazioni faticano con didascalie dettagliate. Attribuiamo ciò al crescente affidamento dei MLLM sul testo generato, piuttosto che sull'immagine di input, man mano che la lunghezza della sequenza aumenta. Per affrontare questo problema, proponiamo un approccio multiagente che sfrutta la collaborazione tra LLM e MLLM per correggere le didascalie fornite. Inoltre, introduciamo un quadro di valutazione e un dataset di riferimento per agevolare l'analisi sistematica delle didascalie dettagliate. I nostri esperimenti dimostrano che il nostro metodo di valutazione proposto si allinea meglio con i giudizi umani sulla factualità rispetto alle metriche esistenti e che gli approcci attuali per migliorare la factualità dei MLLM potrebbero non essere sufficienti nei compiti di didascalia di immagini iperdettagliate. Al contrario, il nostro metodo proposto migliora significativamente l'accuratezza fattuale delle didascalie, migliorando persino quelle generate da GPT-4V. Infine, evidenziamo una limitazione del benchmarking incentrato sulla VQA dimostrando che le prestazioni di un MLLM sui benchmark VQA potrebbero non correlare con la sua capacità di generare didascalie dettagliate di immagini.

English

Multimodal large language models (MLLMs) excel at generating highly detailed captions but often produce hallucinations. Our analysis reveals that existing hallucination detection methods struggle with detailed captions. We attribute this to the increasing reliance of MLLMs on their generated text, rather than the input image, as the sequence length grows. To address this issue, we propose a multiagent approach that leverages LLM-MLLM collaboration to correct given captions. Additionally, we introduce an evaluation framework and a benchmark dataset to facilitate the systematic analysis of detailed captions. Our experiments demonstrate that our proposed evaluation method better aligns with human judgments of factuality than existing metrics and that existing approaches to improve the MLLM factuality may fall short in hyper-detailed image captioning tasks. In contrast, our proposed method significantly enhances the factual accuracy of captions, even improving those generated by GPT-4V. Finally, we highlight a limitation of VQA-centric benchmarking by demonstrating that an MLLM's performance on VQA benchmarks may not correlate with its ability to generate detailed image captions.

Verso una Descrizione di Immagini Iper-Dettagliata Robusta: Un Approccio Multiagente e Metriche di Valutazione Duali per la Fattualità e la Copertura

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

Abstract

Support