De Bittere Les Getrokken uit Meer dan 2.000 Meertalige Benchmarks
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Auteurs: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) blijven vooruitgaan in hun linguïstische
mogelijkheden, is robuuste meertalige evaluatie essentieel geworden voor het
bevorderen van billijke technologische vooruitgang. Dit position paper onderzoekt
meer dan 2.000 meertalige (niet-Engelstalige) benchmarks uit 148 landen,
gepubliceerd tussen 2021 en 2024, om eerdere, huidige en toekomstige praktijken
in meertalige benchmarking te evalueren. Onze bevindingen tonen aan dat, ondanks
aanzienlijke investeringen van tientallen miljoenen dollars, Engels nog steeds
aanzienlijk oververtegenwoordigd is in deze benchmarks. Bovendien baseren de
meeste benchmarks zich op originele taalinhoud in plaats van vertalingen, waarbij
het merendeel afkomstig is uit landen met veel middelen, zoals China, India,
Duitsland, het VK en de VS. Daarnaast laat een vergelijking van benchmarkprestaties
met menselijke beoordelingen opmerkelijke verschillen zien. STEM-gerelateerde
taken vertonen sterke correlaties met menselijke evaluaties (0,70 tot 0,85),
terwijl traditionele NLP-taken zoals vraagbeantwoording (bijv. XQuAD) veel zwakkere
correlaties laten zien (0,11 tot 0,30). Bovendien blijkt het vertalen van Engelstalige
benchmarks naar andere talen onvoldoende, aangezien gelokaliseerde benchmarks
aanzienlijk beter aansluiten bij lokale menselijke beoordelingen (0,68) dan hun
vertaalde tegenhangers (0,47). Dit onderstreept het belang van het creëren van
cultureel en linguïstisch toegesneden benchmarks in plaats van uitsluitend te
vertrouwen op vertalingen. Door deze uitgebreide analyse belichten we zes
belangrijke beperkingen in huidige meertalige evaluatiepraktijken, stellen we
de bijbehorende leidende principes voor effectieve meertalige benchmarking voor,
en schetsen we vijf kritieke onderzoeksrichtingen om vooruitgang in het veld te
bevorderen. Tot slot roepen we op tot een wereldwijde samenwerking om
menselijk afgestemde benchmarks te ontwikkelen die prioriteit geven aan
real-world toepassingen.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.Summary
AI-Generated Summary