JMMMU : Un banc d'essai japonais massif et multidisciplinaire pour l'évaluation consciente de la culture
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
October 22, 2024
Auteurs: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI
Résumé
Accélérer la recherche sur les Grands Modèles Multimodaux (LMMs) dans les langues autres que l'anglais est crucial pour améliorer les expériences des utilisateurs à travers des populations plus larges. Dans cet article, nous présentons JMMMU (Japanese MMMU), le premier banc d'essai japonais à grande échelle conçu pour évaluer les LMMs sur des tâches de niveau expert basées sur le contexte culturel japonais. Pour faciliter une évaluation culturellement complète, JMMMU propose deux sous-ensembles complémentaires : (i) un sous-ensemble culturellement agnostique (CA), où des sujets indépendants de la culture (par exemple, les mathématiques) sont sélectionnés et traduits en japonais, permettant une comparaison un à un avec son homologue anglais MMMU ; et (ii) un sous-ensemble culturellement spécifique (CS), comprenant des sujets nouvellement conçus qui reflètent le contexte culturel japonais. En utilisant le sous-ensemble CA, nous observons une baisse de performance dans de nombreux LMMs lorsqu'ils sont évalués en japonais, attribuable uniquement à la variation linguistique. En utilisant le sous-ensemble CS, nous révélons leur compréhension culturelle japonaise insuffisante. De plus, en combinant les deux sous-ensembles, nous identifions que certains LMMs se comportent bien sur le sous-ensemble CA mais pas sur le sous-ensemble CS, mettant en lumière une compréhension superficielle de la langue japonaise qui manque de profondeur dans la compréhension culturelle. Nous espérons que ce travail contribuera non seulement à faire progresser la performance des LMMs en japonais, mais servira également de guide pour créer des bancs d'essai de haute qualité et culturellement diversifiés pour le développement de LMMs multilingues. La page du projet se trouve à l'adresse https://mmmu-japanese-benchmark.github.io/JMMMU/.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English
languages is crucial for enhancing user experiences across broader populations.
In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale
Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the
Japanese cultural context. To facilitate comprehensive culture-aware
evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA)
subset, where the culture-independent subjects (e.g., Math) are selected and
translated into Japanese, enabling one-to-one comparison with its English
counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly
crafted subjects that reflect Japanese cultural context. Using the CA subset,
we observe performance drop in many LMMs when evaluated in Japanese, which is
purely attributable to language variation. Using the CS subset, we reveal their
inadequate Japanese cultural understanding. Further, by combining both subsets,
we identify that some LMMs perform well on the CA subset but not on the CS
subset, exposing a shallow understanding of the Japanese language that lacks
depth in cultural understanding. We hope this work will not only help advance
LMM performance in Japanese but also serve as a guideline to create
high-standard, culturally diverse benchmarks for multilingual LMM development.
The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.Summary
AI-Generated Summary