JMMMU: Ein japanischer umfassender multidisziplinärer multimodaler Verständnisbenchmark für kulturbewusste Bewertung

Zusammenfassung

Die Beschleunigung der Forschung zu Large Multimodal Models (LMMs) in nicht-englischen Sprachen ist entscheidend, um die Benutzererfahrungen in breiteren Bevölkerungsgruppen zu verbessern. In diesem Artikel stellen wir JMMMU (Japanese MMMU) vor, den ersten groß angelegten japanischen Benchmark, der entwickelt wurde, um LMMs anhand von Expertenaufgaben im japanischen kulturellen Kontext zu bewerten. Zur Erleichterung einer umfassenden kulturbezogenen Bewertung umfasst JMMMU zwei ergänzende Teilmengen: (i) die kulturunabhängige (CA) Teilmengen, in der kulturunabhängige Themen (z. B. Mathematik) ausgewählt und ins Japanische übersetzt werden, um einen direkten Vergleich mit dem englischen Pendant MMMU zu ermöglichen; und (ii) die kulturspezifische (CS) Teilmengen, die neu erstellte Themen umfassen, die den japanischen kulturellen Kontext widerspiegeln. Unter Verwendung der CA-Teilmengen beobachten wir einen Leistungsabfall bei vielen LMMs, wenn sie auf Japanisch bewertet werden, der ausschließlich auf sprachliche Variation zurückzuführen ist. Unter Verwendung der CS-Teilmengen zeigen wir ihre unzureichende Kenntnis des japanischen kulturellen Kontexts auf. Darüber hinaus identifizieren wir durch die Kombination beider Teilmengen, dass einige LMMs in der CA-Teilmengen gut abschneiden, aber nicht in der CS-Teilmengen, was auf ein oberflächliches Verständnis der japanischen Sprache hinweist, das an kulturellem Verständnis fehlt. Wir hoffen, dass diese Arbeit nicht nur dazu beiträgt, die Leistung von LMMs auf Japanisch zu verbessern, sondern auch als Leitfaden für die Erstellung hochwertiger, kulturell vielfältiger Benchmarks für die Entwicklung mehrsprachiger LMMs dient. Die Projektseite ist https://mmmu-japanese-benchmark.github.io/JMMMU/.

English

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

JMMMU: Ein japanischer umfassender multidisziplinärer multimodaler Verständnisbenchmark für kulturbewusste Bewertung

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Zusammenfassung

Support