ChatPaper.aiChatPaper

Esplorazione delle Allucinazioni nei Modelli Multimodali di Grandi Dimensioni nella Comprensione Video: Benchmark, Analisi e Mitigazione

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

March 25, 2025
Autori: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI

Abstract

L'allucinazione dei grandi modelli multimodali (LMM), che forniscono risposte apparentemente corrette ma in realtà errate, limita la loro affidabilità e applicabilità. Questo articolo si propone di studiare il problema dell'allucinazione degli LMM nella modalità video, che è dinamica e più complessa rispetto alle modalità statiche come immagini e testo. Partendo da questa motivazione, presentiamo innanzitutto un benchmark completo denominato HAVEN per valutare le allucinazioni degli LMM nei compiti di comprensione video. È costruito su tre dimensioni, ovvero cause dell'allucinazione, aspetti dell'allucinazione e formati delle domande, risultando in 6K domande. Successivamente, studiamo quantitativamente 7 fattori influenti sulle allucinazioni, ad esempio la durata dei video, le dimensioni del modello e il ragionamento del modello, attraverso esperimenti su 16 LMM utilizzando il benchmark presentato. Inoltre, ispirati da recenti modelli di pensiero come OpenAI o1, proponiamo un modello di pensiero video per mitigare le allucinazioni degli LMM tramite fine-tuning supervisionato del ragionamento (SRFT) e ottimizzazione diretta delle preferenze (TDPO)—dove SRFT migliora le capacità di ragionamento mentre TDPO riduce le allucinazioni nel processo di pensiero. Esperimenti e analisi estesi ne dimostrano l'efficacia. In particolare, migliora la baseline del 7,65% in accuratezza nella valutazione delle allucinazioni e riduce il punteggio di bias del 4,5%. Il codice e i dati sono pubblici all'indirizzo https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that appear correct but are actually incorrect, limits their reliability and applicability. This paper aims to study the hallucination problem of LMMs in video modality, which is dynamic and more challenging compared to static modalities like images and text. From this motivation, we first present a comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in video understanding tasks. It is built upon three dimensions, i.e., hallucination causes, hallucination aspects, and question formats, resulting in 6K questions. Then, we quantitatively study 7 influential factors on hallucinations, e.g., duration time of videos, model sizes, and model reasoning, via experiments of 16 LMMs on the presented benchmark. In addition, inspired by recent thinking models like OpenAI o1, we propose a video-thinking model to mitigate the hallucinations of LMMs via supervised reasoning fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT enhances reasoning capabilities while TDPO reduces hallucinations in the thinking process. Extensive experiments and analyses demonstrate the effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on hallucination evaluation and reduces the bias score by 4.5%. The code and data are public at https://github.com/Hongcheng-Gao/HAVEN.

Summary

AI-Generated Summary

PDF314March 26, 2025