JMMMU: 일본 대규모 다학제 다중 모달 이해를 위한 문화 인식 평가 벤치마크

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

October 22, 2024
저자: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI

초록

대규모 다중 모달 모델(LMMs)에 대한 연구를 가속화하는 것은 네이티브 언어에서 중요하며, 보다 넓은 인구에 걸쳐 사용자 경험을 향상시키는 데 중요합니다. 본 논문에서는 일본 문화적 맥락을 기반으로 전문가 수준의 작업을 평가하기 위해 설계된 최초의 대규모 일본어 벤치마크인 JMMMU (Japanese MMMU)를 소개합니다. 포괄적인 문화 인식 평가를 용이하게 하기 위해 JMMMU에는 두 가지 보완적인 하위 집합이 포함되어 있습니다: (i) 문화에 중립적인 주제(예: 수학)가 선택되고 일본어로 번역된 문화에 중립적인(CA) 하위 집합, 이를 통해 영어 상대변수 MMMU와 일대일 비교가 가능하며, (ii) 일본 문화적 맥락을 반영하는 새로운 주제로 구성된 문화 특정(CS) 하위 집합. CA 하위 집합을 사용하여 우리는 다수의 LMMs에서 일본어로 평가할 때 성능 저하를 관찰했으며, 이는 순수하게 언어 변이로 인한 것입니다. CS 하위 집합을 사용하여 우리는 그들의 불충분한 일본 문화적 이해를 밝혀내었습니다. 더 나아가 두 하위 집합을 결합함으로써, 일부 LMMs가 CA 하위 집합에서는 잘 수행되지만 CS 하위 집합에서는 그렇지 않음을 확인하여, 언어에 대한 얕은 이해와 문화적 이해 부족을 드러냈습니다. 본 연구가 LMM의 성능을 일본어로 향상시키는 데 도움이 되는 것뿐만 아니라, 다중 언어 LMM 개발을 위한 고수준이고 문화적으로 다양한 벤치마크를 만드는 지침으로 기능하기를 희망합니다. 프로젝트 페이지는 https://mmmu-japanese-benchmark.github.io/JMMMU/에서 확인하실 수 있습니다.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

Summary

AI-Generated Summary

PDF122November 16, 2024