ChatPaper.aiChatPaper

글로벌 다중언어 평가에서의 문화적 및 언어적 편향 이해와 대응

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

December 4, 2024
저자: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker
cs.AI

초록

다중 언어 데이터셋에서의 문화적 편향은 세계적인 기준으로서의 효과적인 도전을 제기합니다. 이러한 편향은 언어뿐만 아니라 질문을 해석하는 데 필요한 문화적 지식에서도 비롯되어, MMLU와 같은 번역된 데이터셋의 실용성을 감소시킵니다. 게다가 번역은 종종 목표 언어의 질문의 의미나 명확성을 왜곡할 수 있는 인공물을 도입합니다. 다중 언어 평가에서 흔히 사용되는 방법은 기계 번역된 평가 세트에 의존하는 것이지만, 데이터셋을 단순히 번역하는 것만으로는 이러한 도전에 대응하기에 충분하지 않습니다. 본 연구에서는 이러한 문제들이 다중 언어 평가와 그에 이어 발생하는 모델 성능에 미치는 영향을 추적합니다. 최신 오픈 및 전용 모델의 대규모 평가 결과는 MMLU에 대한 진전이 서구 중심적 개념을 학습하는 데 크게 의존함을 보여주며, 모든 질문 중 28%가 문화적으로 민감한 지식을 요구함을 보여줍니다. 게다가 지리적 지식이 필요한 질문의 경우, 놀라운 84.9%가 북미 또는 유럽 지역에 초점을 맞춥니다. 모델 평가 순위는 문화적으로 민감하다고 표시된 질문의 전체 부분 또는 하위 질문에 따라 달라지며, 번역된 MMLU에 맹목적으로 의존할 때 모델 순위에 왜곡이 발생함을 보여줍니다. 우리는 개선된 MMLU인 Global-MMLU를 발표하며, 42개 언어로 평가 범위를 확대하였습니다. 번역 품질을 검증하기 위해 보상받는 전문가 및 커뮤니티 주석자들과 협력하여 원본 데이터셋에 존재하는 문화적 편향을 엄격하게 평가함으로써 전반적인 품질을 향상시켰습니다. 이 포괄적인 Global-MMLU 세트는 문화적으로 민감하고 문화적으로 중립적으로 레이블이 지정된 하위 집합을 포함하여 보다 종합적이고 완전한 평가를 가능하게 합니다.
English
Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.

Summary

AI-Generated Summary

PDF182December 6, 2024