JMMMU : Un banc d'essai japonais massif et multidisciplinaire pour l'évaluation consciente de la culture

Résumé

Accélérer la recherche sur les Grands Modèles Multimodaux (LMMs) dans les langues autres que l'anglais est crucial pour améliorer les expériences des utilisateurs à travers des populations plus larges. Dans cet article, nous présentons JMMMU (Japanese MMMU), le premier banc d'essai japonais à grande échelle conçu pour évaluer les LMMs sur des tâches de niveau expert basées sur le contexte culturel japonais. Pour faciliter une évaluation culturellement complète, JMMMU propose deux sous-ensembles complémentaires : (i) un sous-ensemble culturellement agnostique (CA), où des sujets indépendants de la culture (par exemple, les mathématiques) sont sélectionnés et traduits en japonais, permettant une comparaison un à un avec son homologue anglais MMMU ; et (ii) un sous-ensemble culturellement spécifique (CS), comprenant des sujets nouvellement conçus qui reflètent le contexte culturel japonais. En utilisant le sous-ensemble CA, nous observons une baisse de performance dans de nombreux LMMs lorsqu'ils sont évalués en japonais, attribuable uniquement à la variation linguistique. En utilisant le sous-ensemble CS, nous révélons leur compréhension culturelle japonaise insuffisante. De plus, en combinant les deux sous-ensembles, nous identifions que certains LMMs se comportent bien sur le sous-ensemble CA mais pas sur le sous-ensemble CS, mettant en lumière une compréhension superficielle de la langue japonaise qui manque de profondeur dans la compréhension culturelle. Nous espérons que ce travail contribuera non seulement à faire progresser la performance des LMMs en japonais, mais servira également de guide pour créer des bancs d'essai de haute qualité et culturellement diversifiés pour le développement de LMMs multilingues. La page du projet se trouve à l'adresse https://mmmu-japanese-benchmark.github.io/JMMMU/.

English

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

JMMMU : Un banc d'essai japonais massif et multidisciplinaire pour l'évaluation consciente de la culture

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Résumé

Summary

Support