De Vloek van Multi-Modaliteiten: Het Evalueren van Hallucinaties van Grote Multimodale Modellen over Taal, Visueel en Audio.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
Auteurs: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
Samenvatting
Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben de prestaties aanzienlijk verbeterd over diverse taken, met voortdurende inspanningen om extra modaliteiten zoals video en audio verder te integreren. Echter, de meeste bestaande LMM's blijven kwetsbaar voor hallucinaties, het verschil tussen de feitelijke multimodale invoer en de gegenereerde tekstuele uitvoer, wat hun toepasbaarheid in verschillende real-world scenario's beperkt heeft. Dit artikel presenteert het eerste systematische onderzoek naar hallucinaties in LMM's met de drie meest voorkomende modaliteiten: taal, visueel en audio. Onze studie onthult twee belangrijke bijdragers aan hallucinaties: te veel vertrouwen op unimodale prior-kennis en spurious inter-modaliteitscorrelaties. Om deze uitdagingen aan te pakken, introduceren we de benchmark The Curse of Multi-Modalities (CMM), die hallucinaties in LMM's uitgebreid evalueert en een gedetailleerde analyse biedt van hun onderliggende problemen. Onze bevindingen benadrukken belangrijke kwetsbaarheden, waaronder onevenwichtigheden in modale integratie en vooringenomenheden van trainingsdata, waarbij de noodzaak voor gebalanceerd cross-modale leren en verbeterde hallucinatie-mitigatiestrategieën wordt onderstreept. Op basis van onze observaties en bevindingen suggereren we potentiële onderzoeksrichtingen die de betrouwbaarheid van LMM's kunnen verbeteren.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary