Kunnen grote taalmodellen helpen bij multimodale taalanalyse? MMLA: Een uitgebreide benchmark
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Auteurs: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Samenvatting
Multimodale taalanalyse is een snel evoluerend vakgebied dat gebruikmaakt van
meerdere modaliteiten om het begrip van de hoogwaardige semantiek achter
menselijke gespreksuitingen te verbeteren. Ondanks het belang ervan is er weinig
onderzoek gedaan naar het vermogen van multimodale grote taalmodellen (MLLMs)
om cognitieve semantiek te begrijpen. In dit artikel introduceren we MMLA, een
uitgebreide benchmark die specifiek is ontworpen om deze kloof te dichten. MMLA
omvat meer dan 61K multimodale uitingen afkomstig uit zowel geënsceneerde als
realistische scenario's, en bestrijkt zes kernaspecten van multimodale semantiek:
intentie, emotie, dialooghandeling, sentiment, spreekstijl en communicatiegedrag.
We evalueren acht hoofdstromingen van LLMs en MLLMs met behulp van drie methoden:
zero-shot inferentie, supervised fine-tuning en instructie-tuning. Uitgebreide
experimenten tonen aan dat zelfs fijn afgestemde modellen slechts een nauwkeurigheid
van ongeveer 60%~70% bereiken, wat de beperkingen van huidige MLLMs in het begrijpen
van complexe menselijke taal onderstreept. Wij geloven dat MMLA een solide basis zal
vormen voor het verkennen van het potentieel van grote taalmodellen in multimodale
taalanalyse en waardevolle bronnen zal bieden om dit vakgebied vooruit te helpen.
De datasets en code zijn openbaar beschikbaar op https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary