ChatPaper.aiChatPaper

Kunnen grote taalmodellen helpen bij multimodale taalanalyse? MMLA: Een uitgebreide benchmark

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

April 23, 2025
Auteurs: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI

Samenvatting

Multimodale taalanalyse is een snel evoluerend vakgebied dat gebruikmaakt van meerdere modaliteiten om het begrip van de hoogwaardige semantiek achter menselijke gespreksuitingen te verbeteren. Ondanks het belang ervan is er weinig onderzoek gedaan naar het vermogen van multimodale grote taalmodellen (MLLMs) om cognitieve semantiek te begrijpen. In dit artikel introduceren we MMLA, een uitgebreide benchmark die specifiek is ontworpen om deze kloof te dichten. MMLA omvat meer dan 61K multimodale uitingen afkomstig uit zowel geënsceneerde als realistische scenario's, en bestrijkt zes kernaspecten van multimodale semantiek: intentie, emotie, dialooghandeling, sentiment, spreekstijl en communicatiegedrag. We evalueren acht hoofdstromingen van LLMs en MLLMs met behulp van drie methoden: zero-shot inferentie, supervised fine-tuning en instructie-tuning. Uitgebreide experimenten tonen aan dat zelfs fijn afgestemde modellen slechts een nauwkeurigheid van ongeveer 60%~70% bereiken, wat de beperkingen van huidige MLLMs in het begrijpen van complexe menselijke taal onderstreept. Wij geloven dat MMLA een solide basis zal vormen voor het verkennen van het potentieel van grote taalmodellen in multimodale taalanalyse en waardevolle bronnen zal bieden om dit vakgebied vooruit te helpen. De datasets en code zijn openbaar beschikbaar op https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages multiple modalities to enhance the understanding of high-level semantics underlying human conversational utterances. Despite its significance, little research has investigated the capability of multimodal large language models (MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA comprises over 61K multimodal utterances drawn from both staged and real-world scenarios, covering six core dimensions of multimodal semantics: intent, emotion, dialogue act, sentiment, speaking style, and communication behavior. We evaluate eight mainstream branches of LLMs and MLLMs using three methods: zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive experiments reveal that even fine-tuned models achieve only about 60%~70% accuracy, underscoring the limitations of current MLLMs in understanding complex human language. We believe that MMLA will serve as a solid foundation for exploring the potential of large language models in multimodal language analysis and provide valuable resources to advance this field. The datasets and code are open-sourced at https://github.com/thuiar/MMLA.

Summary

AI-Generated Summary

PDF112April 28, 2025