JMMMU: Een Japanse Massive Multi-discipline Multimodaal Begrip Benchmark voor Cultuurbewuste Evaluatie

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

October 22, 2024
Auteurs: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI

Samenvatting

Het versnellen van onderzoek naar Grote Multimodale Modellen (LMM's) in niet-Engelstalige talen is cruciaal voor het verbeteren van gebruikerservaringen over bredere populaties. In dit artikel introduceren we JMMMU (Japanse MMMU), de eerste grootschalige Japanse benchmark die is ontworpen om LMM's te evalueren op expertniveau taken gebaseerd op de Japanse culturele context. Om een uitgebreide, cultuurbewuste evaluatie te vergemakkelijken, bevat JMMMU twee aanvullende subsets: (i) de cultuuragnostische (CA) subset, waarbij de cultuur-onafhankelijke onderwerpen (bijv. Wiskunde) zijn geselecteerd en vertaald naar het Japans, waardoor een één-op-één vergelijking mogelijk is met zijn Engelse tegenhanger MMMU; en (ii) de cultuurspecifieke (CS) subset, bestaande uit nieuw gecreëerde onderwerpen die de Japanse culturele context weerspiegelen. Met behulp van de CA subset observeren we een prestatiedaling bij veel LMM's wanneer geëvalueerd in het Japans, wat puur toe te schrijven is aan taalvariatie. Met behulp van de CS subset onthullen we hun ontoereikende begrip van de Japanse cultuur. Verder, door beide subsets te combineren, identificeren we dat sommige LMM's goed presteren op de CA subset maar niet op de CS subset, waarbij een oppervlakkig begrip van de Japanse taal wordt blootgelegd dat diepgang mist in cultureel begrip. We hopen dat dit werk niet alleen zal helpen bij het verbeteren van de prestaties van LMM's in het Japans, maar ook zal dienen als richtlijn voor het creëren van hoogwaardige, cultureel diverse benchmarks voor de ontwikkeling van meertalige LMM's. De projectpagina is https://mmmu-japanese-benchmark.github.io/JMMMU/.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

Summary

AI-Generated Summary

PDF122November 16, 2024