IberBench : Évaluation des modèles de langage sur les langues ibériques
IberBench: LLM Evaluation on Iberian Languages
April 23, 2025
Auteurs: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) restent difficiles à évaluer de manière exhaustive, en particulier pour les langues autres que l'anglais, où les données de haute qualité sont souvent limitées. Les benchmarks et classements existants sont principalement centrés sur l'anglais, avec seulement quelques-uns abordant d'autres langues. Ces benchmarks présentent plusieurs lacunes majeures : ils négligent la diversité des variétés linguistiques, privilégient les capacités fondamentales du traitement automatique du langage naturel (NLP) par rapport aux tâches pertinentes pour l'industrie, et sont statiques. Avec ces aspects à l'esprit, nous présentons IberBench, un benchmark complet et extensible conçu pour évaluer les performances des LLMs sur des tâches NLP fondamentales et pertinentes pour l'industrie, dans les langues parlées à travers la péninsule ibérique et l'Ibéro-Amérique. IberBench intègre 101 jeux de données provenant de campagnes d'évaluation et de benchmarks récents, couvrant 22 catégories de tâches telles que l'analyse de sentiments et d'émotions, la détection de toxicité et la synthèse. Le benchmark aborde les principales limitations des pratiques d'évaluation actuelles, telles que le manque de diversité linguistique et les configurations d'évaluation statiques, en permettant des mises à jour continues et des soumissions de modèles et de jeux de données pilotées par la communauté, modérées par un comité d'experts. Nous évaluons 23 LLMs allant de 100 millions à 14 milliards de paramètres et fournissons des insights empiriques sur leurs forces et leurs limites. Nos résultats indiquent que (i) les LLMs performent moins bien sur les tâches pertinentes pour l'industrie que sur les tâches fondamentales, (ii) les performances sont en moyenne plus faibles pour le galicien et le basque, (iii) certaines tâches montrent des résultats proches du hasard, et (iv) dans d'autres tâches, les LLMs performent au-dessus du hasard mais en dessous des systèmes de tâches partagées. IberBench propose des implémentations open-source pour l'ensemble du pipeline d'évaluation, incluant la normalisation et l'hébergement des jeux de données, l'évaluation incrémentale des LLMs, et un classement accessible au public.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively,
particularly for languages other than English, where high-quality data is often
limited. Existing benchmarks and leaderboards are predominantly
English-centric, with only a few addressing other languages. These benchmarks
fall short in several key areas: they overlook the diversity of language
varieties, prioritize fundamental Natural Language Processing (NLP)
capabilities over tasks of industrial relevance, and are static. With these
aspects in mind, we present IberBench, a comprehensive and extensible benchmark
designed to assess LLM performance on both fundamental and industry-relevant
NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America.
IberBench integrates 101 datasets from evaluation campaigns and recent
benchmarks, covering 22 task categories such as sentiment and emotion analysis,
toxicity detection, and summarization. The benchmark addresses key limitations
in current evaluation practices, such as the lack of linguistic diversity and
static evaluation setups by enabling continual updates and community-driven
model and dataset submissions moderated by a committee of experts. We evaluate
23 LLMs ranging from 100 million to 14 billion parameters and provide empirical
insights into their strengths and limitations. Our findings indicate that (i)
LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii)
performance is on average lower for Galician and Basque, (iii) some tasks show
results close to random, and (iv) in other tasks LLMs perform above random but
below shared task systems. IberBench offers open-source implementations for the
entire evaluation pipeline, including dataset normalization and hosting,
incremental evaluation of LLMs, and a publicly accessible leaderboard.Summary
AI-Generated Summary