MMLU Globale: Comprendere e Affrontare i Preconcetti Culturali e Linguistici nella Valutazione Multilingue

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

December 4, 2024
Autori: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker
cs.AI

Abstract

I pregiudizi culturali nei dataset multilingue pongono significativi sfide per la loro efficacia come benchmark globali. Questi pregiudizi derivano non solo dalla lingua, ma anche dalla conoscenza culturale necessaria per interpretare le domande, riducendo l'utilità pratica dei dataset tradotti come MMLU. Inoltre, la traduzione spesso introduce artefatti che possono distorto il significato o la chiarezza delle domande nella lingua di destinazione. Una pratica comune nella valutazione multilingue è fare affidamento su set di valutazione tradotti automaticamente, ma semplicemente tradurre un dataset non è sufficiente per affrontare queste sfide. In questo lavoro, tracciamo l'impatto di entrambe queste questioni sulle valutazioni multilingue e sulle prestazioni dei modelli risultanti. La nostra valutazione su larga scala dei modelli aperti e proprietari all'avanguardia illustra che il progresso su MMLU dipende pesantemente dallo studio di concetti occidentali, con il 28% di tutte le domande che richiedono conoscenze culturalmente sensibili. Inoltre, per le domande che richiedono conoscenze geografiche, un sorprendente 84,9% si concentra su regioni nordamericane o europee. Le classifiche delle valutazioni dei modelli cambiano a seconda che vengano valutate sull'intera porzione o sul sottoinsieme di domande annotate come culturalmente sensibili, mostrando la distorsione delle classifiche dei modelli quando si fa affidamento ciecamente su MMLU tradotti. Rilasciamo Global-MMLU, un MMLU migliorato con copertura di valutazione in 42 lingue -- con una qualità complessiva migliorata coinvolgendo annotatori professionali e della comunità compensati per verificare la qualità della traduzione e valutare rigorosamente i pregiudizi culturali presenti nel dataset originale. Questo completo set Global-MMLU include anche sottoinsiemi designati etichettati come culturalmente sensibili e culturalmente agnostici per consentire una valutazione più olistica e completa.
English
Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.

Summary

AI-Generated Summary

PDF172December 6, 2024