Können große Sprachmodelle bei der multimodalen Sprachanalyse helfen? MMLA: Ein umfassender Benchmark
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Autoren: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Zusammenfassung
Die multimodale Sprachanalyse ist ein sich schnell entwickelndes Forschungsgebiet, das mehrere Modalitäten nutzt, um das Verständnis der hochgradigen Semantik hinter menschlichen Gesprächsäußerungen zu verbessern. Trotz ihrer Bedeutung wurde bisher nur wenig Forschung zur Fähigkeit multimodaler großer Sprachmodelle (MLLMs) betrieben, kognitive Semantik zu erfassen. In diesem Artikel stellen wir MMLA vor, einen umfassenden Benchmark, der speziell entwickelt wurde, um diese Lücke zu schließen. MMLA umfasst über 61.000 multimodale Äußerungen aus sowohl inszenierten als auch realen Szenarien und deckt sechs Kernbereiche der multimodalen Semantik ab: Absicht, Emotion, Dialogakt, Sentiment, Sprechstil und Kommunikationsverhalten. Wir evaluieren acht gängige Varianten von LLMs und MLLMs mit drei Methoden: Zero-Shot-Inferenz, überwachtes Fine-Tuning und Instruction Tuning. Umfangreiche Experimente zeigen, dass selbst feinabgestimmte Modelle nur eine Genauigkeit von etwa 60 % bis 70 % erreichen, was die Grenzen aktueller MLLMs beim Verständnis komplexer menschlicher Sprache verdeutlicht. Wir glauben, dass MMLA eine solide Grundlage für die Erforschung des Potenzials großer Sprachmodelle in der multimodalen Sprachanalyse bieten und wertvolle Ressourcen zur Weiterentwicklung dieses Feldes bereitstellen wird. Die Datensätze und der Code sind unter https://github.com/thuiar/MMLA open-source verfügbar.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary