ChatPaper.aiChatPaper

De Bittere Les Getrokken uit Meer dan 2.000 Meertalige Benchmarks

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

April 22, 2025
Auteurs: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Samenvatting

Naarmate grote taalmodellen (LLM's) blijven vooruitgaan in hun linguïstische mogelijkheden, is robuuste meertalige evaluatie essentieel geworden voor het bevorderen van billijke technologische vooruitgang. Dit position paper onderzoekt meer dan 2.000 meertalige (niet-Engelstalige) benchmarks uit 148 landen, gepubliceerd tussen 2021 en 2024, om eerdere, huidige en toekomstige praktijken in meertalige benchmarking te evalueren. Onze bevindingen tonen aan dat, ondanks aanzienlijke investeringen van tientallen miljoenen dollars, Engels nog steeds aanzienlijk oververtegenwoordigd is in deze benchmarks. Bovendien baseren de meeste benchmarks zich op originele taalinhoud in plaats van vertalingen, waarbij het merendeel afkomstig is uit landen met veel middelen, zoals China, India, Duitsland, het VK en de VS. Daarnaast laat een vergelijking van benchmarkprestaties met menselijke beoordelingen opmerkelijke verschillen zien. STEM-gerelateerde taken vertonen sterke correlaties met menselijke evaluaties (0,70 tot 0,85), terwijl traditionele NLP-taken zoals vraagbeantwoording (bijv. XQuAD) veel zwakkere correlaties laten zien (0,11 tot 0,30). Bovendien blijkt het vertalen van Engelstalige benchmarks naar andere talen onvoldoende, aangezien gelokaliseerde benchmarks aanzienlijk beter aansluiten bij lokale menselijke beoordelingen (0,68) dan hun vertaalde tegenhangers (0,47). Dit onderstreept het belang van het creëren van cultureel en linguïstisch toegesneden benchmarks in plaats van uitsluitend te vertrouwen op vertalingen. Door deze uitgebreide analyse belichten we zes belangrijke beperkingen in huidige meertalige evaluatiepraktijken, stellen we de bijbehorende leidende principes voor effectieve meertalige benchmarking voor, en schetsen we vijf kritieke onderzoeksrichtingen om vooruitgang in het veld te bevorderen. Tot slot roepen we op tot een wereldwijde samenwerking om menselijk afgestemde benchmarks te ontwikkelen die prioriteit geven aan real-world toepassingen.
English
As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.

Summary

AI-Generated Summary

PDF612April 23, 2025