Untersuchung von Halluzinationen großer multimodaler Modelle im Verständnis von Videos: Benchmark, Analyse und Minderung
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
March 25, 2025
Autoren: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI
Zusammenfassung
Die Halluzinationen großer multimodaler Modelle (LMMs), die Antworten liefern, die korrekt erscheinen, tatsächlich jedoch falsch sind, schränken deren Zuverlässigkeit und Anwendbarkeit ein. Diese Arbeit zielt darauf ab, das Halluzinationsproblem von LMMs im Video-Modul zu untersuchen, das im Vergleich zu statischen Modulen wie Bildern und Text dynamischer und herausfordernder ist. Ausgehend von dieser Motivation stellen wir zunächst einen umfassenden Benchmark namens HAVEN vor, der zur Bewertung von Halluzinationen von LMMs in Video-Verständnisaufgaben dient. Er basiert auf drei Dimensionen, nämlich Halluzinationsursachen, Halluzinationsaspekte und Frageformate, was zu 6.000 Fragen führt. Anschließend untersuchen wir quantitativ 7 einflussreiche Faktoren auf Halluzinationen, wie z.B. die Dauer der Videos, die Modellgrößen und die Modelllogik, durch Experimente mit 16 LMMs auf dem vorgestellten Benchmark. Darüber hinaus schlagen wir, inspiriert von aktuellen Denkmodellen wie OpenAI o1, ein Video-Denkmodell vor, um die Halluzinationen von LMMs durch überwachtes Reasoning-Fine-Tuning (SRFT) und direkte Präferenzoptimierung (TDPO) zu reduzieren – wobei SRFT die logischen Fähigkeiten verbessert und TDPO Halluzinationen im Denkprozess verringert. Umfangreiche Experimente und Analysen demonstrieren die Wirksamkeit. Bemerkenswerterweise verbessert es die Baseline um 7,65 % in der Genauigkeit bei der Halluzinationsbewertung und reduziert den Bias-Score um 4,5 %. Der Code und die Daten sind öffentlich unter https://github.com/Hongcheng-Gao/HAVEN verfügbar.
English
The hallucination of large multimodal models (LMMs), providing responses that
appear correct but are actually incorrect, limits their reliability and
applicability. This paper aims to study the hallucination problem of LMMs in
video modality, which is dynamic and more challenging compared to static
modalities like images and text. From this motivation, we first present a
comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in
video understanding tasks. It is built upon three dimensions, i.e.,
hallucination causes, hallucination aspects, and question formats, resulting in
6K questions. Then, we quantitatively study 7 influential factors on
hallucinations, e.g., duration time of videos, model sizes, and model
reasoning, via experiments of 16 LMMs on the presented benchmark. In addition,
inspired by recent thinking models like OpenAI o1, we propose a video-thinking
model to mitigate the hallucinations of LMMs via supervised reasoning
fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT
enhances reasoning capabilities while TDPO reduces hallucinations in the
thinking process. Extensive experiments and analyses demonstrate the
effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on
hallucination evaluation and reduces the bias score by 4.5%. The code and data
are public at https://github.com/Hongcheng-Gao/HAVEN.Summary
AI-Generated Summary