JMMMU: 일본 대규모 다학제 다중 모달 이해를 위한 문화 인식 평가 벤치마크
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
October 22, 2024
저자: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI
초록
대규모 다중 모달 모델(LMMs)에 대한 연구를 가속화하는 것은 네이티브 언어에서 중요하며, 보다 넓은 인구에 걸쳐 사용자 경험을 향상시키는 데 중요합니다. 본 논문에서는 일본 문화적 맥락을 기반으로 전문가 수준의 작업을 평가하기 위해 설계된 최초의 대규모 일본어 벤치마크인 JMMMU (Japanese MMMU)를 소개합니다. 포괄적인 문화 인식 평가를 용이하게 하기 위해 JMMMU에는 두 가지 보완적인 하위 집합이 포함되어 있습니다: (i) 문화에 중립적인 주제(예: 수학)가 선택되고 일본어로 번역된 문화에 중립적인(CA) 하위 집합, 이를 통해 영어 상대변수 MMMU와 일대일 비교가 가능하며, (ii) 일본 문화적 맥락을 반영하는 새로운 주제로 구성된 문화 특정(CS) 하위 집합. CA 하위 집합을 사용하여 우리는 다수의 LMMs에서 일본어로 평가할 때 성능 저하를 관찰했으며, 이는 순수하게 언어 변이로 인한 것입니다. CS 하위 집합을 사용하여 우리는 그들의 불충분한 일본 문화적 이해를 밝혀내었습니다. 더 나아가 두 하위 집합을 결합함으로써, 일부 LMMs가 CA 하위 집합에서는 잘 수행되지만 CS 하위 집합에서는 그렇지 않음을 확인하여, 언어에 대한 얕은 이해와 문화적 이해 부족을 드러냈습니다. 본 연구가 LMM의 성능을 일본어로 향상시키는 데 도움이 되는 것뿐만 아니라, 다중 언어 LMM 개발을 위한 고수준이고 문화적으로 다양한 벤치마크를 만드는 지침으로 기능하기를 희망합니다. 프로젝트 페이지는 https://mmmu-japanese-benchmark.github.io/JMMMU/에서 확인하실 수 있습니다.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English
languages is crucial for enhancing user experiences across broader populations.
In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale
Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the
Japanese cultural context. To facilitate comprehensive culture-aware
evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA)
subset, where the culture-independent subjects (e.g., Math) are selected and
translated into Japanese, enabling one-to-one comparison with its English
counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly
crafted subjects that reflect Japanese cultural context. Using the CA subset,
we observe performance drop in many LMMs when evaluated in Japanese, which is
purely attributable to language variation. Using the CS subset, we reveal their
inadequate Japanese cultural understanding. Further, by combining both subsets,
we identify that some LMMs perform well on the CA subset but not on the CS
subset, exposing a shallow understanding of the Japanese language that lacks
depth in cultural understanding. We hope this work will not only help advance
LMM performance in Japanese but also serve as a guideline to create
high-standard, culturally diverse benchmarks for multilingual LMM development.
The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.Summary
AI-Generated Summary