ChatPaper.aiChatPaper

IberBench: Evaluatie van LLM's op Iberische Talen

IberBench: LLM Evaluation on Iberian Languages

April 23, 2025
Auteurs: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) blijven moeilijk om uitgebreid te evalueren, vooral voor talen anders dan Engels, waar hoogwaardige data vaak beperkt is. Bestaande benchmarks en ranglijsten zijn overwegend Engelstalig, met slechts enkele die andere talen behandelen. Deze benchmarks schieten tekort op verschillende belangrijke gebieden: ze negeren de diversiteit van taalvarianten, leggen de nadruk op fundamentele Natural Language Processing (NLP)-vaardigheden in plaats van op industrieel relevante taken, en zijn statisch. Met deze aspecten in gedachten presenteren we IberBench, een uitgebreide en uitbreidbare benchmark die is ontworpen om de prestaties van LLMs te beoordelen op zowel fundamentele als industrieel relevante NLP-taken, in talen die worden gesproken op het Iberisch Schiereiland en in Ibero-Amerika. IberBench integreert 101 datasets van evaluatiecampagnes en recente benchmarks, die 22 taalcategorieën bestrijken, zoals sentiment- en emotieanalyse, toxiciteitsdetectie en samenvatting. De benchmark adresseert belangrijke beperkingen in huidige evaluatiepraktijken, zoals het gebrek aan linguïstische diversiteit en statische evaluatieopstellingen, door continue updates en door de gemeenschap aangedragen model- en datasetinzendingen mogelijk te maken, die worden gemodereerd door een comité van experts. We evalueren 23 LLMs variërend van 100 miljoen tot 14 miljard parameters en bieden empirische inzichten in hun sterke en zwakke punten. Onze bevindingen geven aan dat (i) LLMs slechter presteren op industrieel relevante taken dan op fundamentele taken, (ii) de prestaties gemiddeld lager zijn voor Galicisch en Baskisch, (iii) sommige taken resultaten laten zien die dicht bij willekeur liggen, en (iv) in andere taken presteren LLMs boven willekeur maar onder gedeelde taaksystemen. IberBench biedt open-source implementaties voor de gehele evaluatiepijplijn, inclusief datasetnormalisatie en hosting, incrementele evaluatie van LLMs, en een publiek toegankelijke ranglijst.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.

Summary

AI-Generated Summary

PDF72April 25, 2025