Évaluation automatique interlingue pour l'évaluation des LLM multilingues

Résumé

L'évaluation du texte généré par machine reste un défi majeur en TAL, en particulier pour les langues autres que l'anglais. Les méthodologies actuelles, incluant les mesures automatisées, les évaluations humaines et les évaluations basées sur les LLM, se concentrent principalement sur l'anglais, révélant ainsi un écart significatif dans les cadres d'évaluation multilingues. Nous introduisons la Suite d'Auto-évaluation Croisée Linguistique (CIA), un cadre extensible comprenant des LLM évaluateurs (Hercule) et un nouvel ensemble de tests (Recon) spécifiquement conçu pour l'évaluation multilingue. Notre ensemble de tests comprend 500 instructions annotées par des humains couvrant diverses capacités de tâches ainsi que des scores de jugement humain dans six langues. Cela permettrait l'étalonnage des LLM multilingues polyvalents et faciliterait la méta-évaluation des LLM évaluateurs. Le modèle proposé, Hercule, est un modèle d'évaluation multilingue qui répond à la rareté des réponses de référence dans la langue cible en apprenant à attribuer des scores aux réponses basés sur des réponses de référence facilement disponibles en anglais. Nos expériences démontrent qu'Hercule est plus étroitement aligné sur les jugements humains par rapport aux modèles propriétaires, démontrant ainsi l'efficacité d'une telle évaluation croisée linguistique dans des scénarios à ressources limitées. De plus, il est également efficace dans l'évaluation zéro-shot sur des langues non vues. Cette étude est la première examen complet de l'évaluation croisée linguistique utilisant des LLM, présentant une approche évolutive et efficace pour l'évaluation multilingue. Tout le code, les ensembles de données et les modèles seront disponibles publiquement pour permettre de nouvelles recherches dans ce domaine important.

English

Evaluating machine-generated text remains a significant challenge in NLP, especially for non-English languages. Current methodologies, including automated metrics, human assessments, and LLM-based evaluations, predominantly focus on English, revealing a significant gap in multilingual evaluation frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an extensible framework that includes evaluator LLMs (Hercule) and a novel test set (Recon) specifically designed for multilingual evaluation. Our test set features 500 human-annotated instructions spanning various task capabilities along with human judgment scores across six languages. This would enable benchmarking of general-purpose multilingual LLMs and facilitate meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a cross-lingual evaluation model that addresses the scarcity of reference answers in the target language by learning to assign scores to responses based on easily available reference answers in English. Our experiments demonstrate that Hercule aligns more closely with human judgments compared to proprietary models, demonstrating the effectiveness of such cross-lingual evaluation in low resource scenarios. Further, it is also effective in zero-shot evaluation on unseen languages. This study is the first comprehensive examination of cross-lingual evaluation using LLMs, presenting a scalable and effective approach for multilingual assessment. All code, datasets, and models will be publicly available to enable further research in this important area.

Évaluation automatique interlingue pour l'évaluation des LLM multilingues

Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs

Résumé

Support