다중 모달리티의 저주: 언어, 시각 및 오디오 영역에서의 대규모 다모달 모델의 환각 평가
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
저자: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
초록
최근 대형 다중 모달 모델(LMMs)의 발전은 다양한 작업에서 성능을 크게 향상시켰으며, 비디오 및 오디오와 같은 추가 모달리티를 더욱 통합하기 위한 노력이 계속되고 있습니다. 그러나 대부분의 기존 LMMs는 환각에 취약하며, 사실적인 다중 모달 입력과 생성된 텍스트 출력 간의 불일치로 인해 다양한 현실 세계 시나리오에서의 적용 가능성이 제한되어 있습니다. 본 논문은 언어, 시각 및 오디오와 같은 세 가지 가장 일반적인 모달리티를 포함하는 LMMs의 환각에 대한 첫 번째 체계적 조사를 제시합니다. 우리의 연구는 환각의 두 가지 주요 원인인 단일 모달 사전에 대한 과도한 의존과 잘못된 모달 간 상관 관계를 밝혀내었습니다. 이러한 도전에 대응하기 위해 우리는 다중 모달리티의 저주(CMM)라는 벤치마크를 소개하였으며, 이를 통해 LMMs에서의 환각을 종합적으로 평가하고 그 근본적인 문제를 상세히 분석합니다. 우리의 연구 결과는 모달리티 통합의 불균형 및 훈련 데이터로부터의 편향과 같은 주요 취약성을 강조하며, 균형 잡힌 교모달 학습과 환각 완화 전략의 강화가 필요함을 강조합니다. 우리의 관측과 연구 결과를 기반으로, LMMs의 신뢰성을 향상시킬 수 있는 잠재적인 연구 방향을 제안합니다.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary