Verso una Descrizione di Immagini Iper-Dettagliata Robusta: Un Approccio Multiagente e Metriche di Valutazione Duali per la Fattualità e la Copertura
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage
December 20, 2024
Autori: Saehyung Lee, Seunghyun Yoon, Trung Bui, Jing Shi, Sungroh Yoon
cs.AI
Abstract
I modelli di linguaggio multimodali di grandi dimensioni (MLLM) eccellono nella generazione di didascalie altamente dettagliate ma spesso producono allucinazioni. La nostra analisi rivela che i metodi esistenti per rilevare le allucinazioni faticano con didascalie dettagliate. Attribuiamo ciò al crescente affidamento dei MLLM sul testo generato, piuttosto che sull'immagine di input, man mano che la lunghezza della sequenza aumenta. Per affrontare questo problema, proponiamo un approccio multiagente che sfrutta la collaborazione tra LLM e MLLM per correggere le didascalie fornite. Inoltre, introduciamo un quadro di valutazione e un dataset di riferimento per agevolare l'analisi sistematica delle didascalie dettagliate. I nostri esperimenti dimostrano che il nostro metodo di valutazione proposto si allinea meglio con i giudizi umani sulla factualità rispetto alle metriche esistenti e che gli approcci attuali per migliorare la factualità dei MLLM potrebbero non essere sufficienti nei compiti di didascalia di immagini iperdettagliate. Al contrario, il nostro metodo proposto migliora significativamente l'accuratezza fattuale delle didascalie, migliorando persino quelle generate da GPT-4V. Infine, evidenziamo una limitazione del benchmarking incentrato sulla VQA dimostrando che le prestazioni di un MLLM sui benchmark VQA potrebbero non correlare con la sua capacità di generare didascalie dettagliate di immagini.
English
Multimodal large language models (MLLMs) excel at generating highly detailed
captions but often produce hallucinations. Our analysis reveals that existing
hallucination detection methods struggle with detailed captions. We attribute
this to the increasing reliance of MLLMs on their generated text, rather than
the input image, as the sequence length grows. To address this issue, we
propose a multiagent approach that leverages LLM-MLLM collaboration to correct
given captions. Additionally, we introduce an evaluation framework and a
benchmark dataset to facilitate the systematic analysis of detailed captions.
Our experiments demonstrate that our proposed evaluation method better aligns
with human judgments of factuality than existing metrics and that existing
approaches to improve the MLLM factuality may fall short in hyper-detailed
image captioning tasks. In contrast, our proposed method significantly enhances
the factual accuracy of captions, even improving those generated by GPT-4V.
Finally, we highlight a limitation of VQA-centric benchmarking by demonstrating
that an MLLM's performance on VQA benchmarks may not correlate with its ability
to generate detailed image captions.Summary
AI-Generated Summary