GlotEval: Una Suite di Test per la Valutazione Massivamente Multilingue dei Modelli Linguistici di Grande Dimensione
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models
April 5, 2025
Autori: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) stanno avanzando a un ritmo senza precedenti a livello globale, con regioni che adottano sempre più questi modelli per applicazioni nella loro lingua principale. La valutazione di questi modelli in ambienti linguistici diversi, specialmente nelle lingue a bassa risorsa, è diventata una sfida importante per il mondo accademico e industriale. Gli attuali framework di valutazione sono sproporzionatamente concentrati sull'inglese e su un numero ristretto di lingue ad alta risorsa, trascurando così le prestazioni realistiche degli LLM in scenari multilingue e a bassa risorsa. Per colmare questa lacuna, introduciamo GlotEval, un framework leggero progettato per la valutazione massicciamente multilingue. Supportando sette compiti chiave (traduzione automatica, classificazione del testo, riassunto, generazione aperta, comprensione della lettura, etichettatura di sequenze e valutazione intrinseca), che coprono decine o centinaia di lingue, GlotEval mette in evidenza un benchmarking multilingue coerente, modelli di prompt specifici per lingua e traduzione automatica non centrata sull'inglese. Ciò consente una diagnosi precisa dei punti di forza e di debolezza del modello in contesti linguistici diversi. Uno studio di caso sulla traduzione multilingue dimostra l'applicabilità di GlotEval per valutazioni multilingue e specifiche per lingua.
English
Large language models (LLMs) are advancing at an unprecedented pace globally,
with regions increasingly adopting these models for applications in their
primary language. Evaluation of these models in diverse linguistic
environments, especially in low-resource languages, has become a major
challenge for academia and industry. Existing evaluation frameworks are
disproportionately focused on English and a handful of high-resource languages,
thereby overlooking the realistic performance of LLMs in multilingual and
lower-resource scenarios. To address this gap, we introduce GlotEval, a
lightweight framework designed for massively multilingual evaluation.
Supporting seven key tasks (machine translation, text classification,
summarization, open-ended generation, reading comprehension, sequence labeling,
and intrinsic evaluation), spanning over dozens to hundreds of languages,
GlotEval highlights consistent multilingual benchmarking, language-specific
prompt templates, and non-English-centric machine translation. This enables a
precise diagnosis of model strengths and weaknesses in diverse linguistic
contexts. A multilingual translation case study demonstrates GlotEval's
applicability for multilingual and language-specific evaluations.Summary
AI-Generated Summary