BenchMAX: 대규모 언어 모델을 위한 포괄적인 다국어 평가 스위트
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
저자: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
초록
이전의 다국어 벤치마크는 주로 간단한 이해 작업에 초점을 맞추었지만, 대형 언어 모델(LLMs)의 경우에는 지시 따르기, 추론, 긴 맥락 이해, 코드 생성 등에 능숙함을 강조합니다. 그러나 이러한 고급 능력을 언어별로 측정하는 것은 미개발된 분야입니다. 이러한 격차를 해소하기 위해 우리는 BenchMAX를 소개합니다. BenchMAX는 다양한 방식의 다국어 평가 벤치마크로, 이러한 중요한 능력을 언어별로 공정하게 비교할 수 있게 합니다. 고품질을 유지하기 위해 영어에서 16개 다른 언어로 기계 번역된 데이터를 기반으로 각 작업 내의 각 샘플을 세 가지의 독자적인 모국어 스피커 주석자가 독립적으로 주석을 달았습니다. 게다가 데이터셋 구축에서 비롯된 새로운 번역 과제를 제시합니다. BenchMAX에서의 포괄적인 실험은 언어별로 핵심 능력의 효과가 다양하게 나타나며, 단순히 모델 크기를 확장하는 것으로 교정할 수 없는 성능 격차를 강조합니다. BenchMAX는 다양한 언어 모델의 발전을 촉진하기 위한 유망한 시험대를 제공하는 포괄적인 다국어 평가 플랫폼으로 작용합니다. 데이터셋과 코드는 공개적으로 접근 가능합니다.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.Summary
AI-Generated Summary