IberBench: Evaluierung von LLMs für iberische Sprachen
IberBench: LLM Evaluation on Iberian Languages
April 23, 2025
Autoren: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) bleiben schwierig umfassend zu bewerten, insbesondere für Sprachen außer Englisch, wo hochwertige Daten oft begrenzt sind. Bestehende Benchmarks und Ranglisten sind überwiegend englischzentriert, wobei nur wenige andere Sprachen berücksichtigen. Diese Benchmarks weisen mehrere wesentliche Mängel auf: Sie übersehen die Vielfalt der Sprachvarianten, priorisieren grundlegende Fähigkeiten der natürlichen Sprachverarbeitung (NLP) gegenüber industriell relevanten Aufgaben und sind statisch. Vor diesem Hintergrund präsentieren wir IberBench, einen umfassenden und erweiterbaren Benchmark, der darauf abzielt, die Leistung von LLMs sowohl bei grundlegenden als auch industriell relevanten NLP-Aufgaben in den Sprachen der Iberischen Halbinsel und Ibero-Amerikas zu bewerten. IberBench integriert 101 Datensätze aus Evaluationskampagnen und aktuellen Benchmarks, die 22 Aufgabenkategorien wie Sentiment- und Emotionsanalyse, Toxizitätserkennung und Zusammenfassung abdecken. Der Benchmark adressiert zentrale Schwächen aktueller Evaluationspraktiken, wie den Mangel an linguistischer Vielfalt und statischen Evaluationsaufbauten, indem er kontinuierliche Aktualisierungen und community-gesteuerte Einreichungen von Modellen und Datensätzen ermöglicht, die von einem Expertengremium moderiert werden. Wir evaluieren 23 LLMs mit einer Bandbreite von 100 Millionen bis 14 Milliarden Parametern und liefern empirische Einblicke in ihre Stärken und Schwächen. Unsere Ergebnisse zeigen, dass (i) LLMs bei industriell relevanten Aufgaben schlechter abschneiden als bei grundlegenden, (ii) die Leistung im Durchschnitt für Galicisch und Baskisch niedriger ist, (iii) einige Aufgaben Ergebnisse nahe dem Zufall zeigen und (iv) bei anderen Aufgaben LLMs über dem Zufall, aber unter den Systemen von gemeinsamen Aufgaben liegen. IberBench bietet Open-Source-Implementierungen für die gesamte Evaluationspipeline, einschließlich der Normalisierung und Bereitstellung von Datensätzen, der inkrementellen Bewertung von LLMs und einer öffentlich zugänglichen Rangliste.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively,
particularly for languages other than English, where high-quality data is often
limited. Existing benchmarks and leaderboards are predominantly
English-centric, with only a few addressing other languages. These benchmarks
fall short in several key areas: they overlook the diversity of language
varieties, prioritize fundamental Natural Language Processing (NLP)
capabilities over tasks of industrial relevance, and are static. With these
aspects in mind, we present IberBench, a comprehensive and extensible benchmark
designed to assess LLM performance on both fundamental and industry-relevant
NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America.
IberBench integrates 101 datasets from evaluation campaigns and recent
benchmarks, covering 22 task categories such as sentiment and emotion analysis,
toxicity detection, and summarization. The benchmark addresses key limitations
in current evaluation practices, such as the lack of linguistic diversity and
static evaluation setups by enabling continual updates and community-driven
model and dataset submissions moderated by a committee of experts. We evaluate
23 LLMs ranging from 100 million to 14 billion parameters and provide empirical
insights into their strengths and limitations. Our findings indicate that (i)
LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii)
performance is on average lower for Galician and Basque, (iii) some tasks show
results close to random, and (iv) in other tasks LLMs perform above random but
below shared task systems. IberBench offers open-source implementations for the
entire evaluation pipeline, including dataset normalization and hosting,
incremental evaluation of LLMs, and a publicly accessible leaderboard.Summary
AI-Generated Summary