Évaluation automatique interlingue pour l'évaluation des LLM multilingues
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Auteurs: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Résumé
L'évaluation du texte généré par machine reste un défi majeur en TAL, en particulier pour les langues autres que l'anglais. Les méthodologies actuelles, incluant les mesures automatisées, les évaluations humaines et les évaluations basées sur les LLM, se concentrent principalement sur l'anglais, révélant ainsi un écart significatif dans les cadres d'évaluation multilingues. Nous introduisons la Suite d'Auto-évaluation Croisée Linguistique (CIA), un cadre extensible comprenant des LLM évaluateurs (Hercule) et un nouvel ensemble de tests (Recon) spécifiquement conçu pour l'évaluation multilingue. Notre ensemble de tests comprend 500 instructions annotées par des humains couvrant diverses capacités de tâches ainsi que des scores de jugement humain dans six langues. Cela permettrait l'étalonnage des LLM multilingues polyvalents et faciliterait la méta-évaluation des LLM évaluateurs. Le modèle proposé, Hercule, est un modèle d'évaluation multilingue qui répond à la rareté des réponses de référence dans la langue cible en apprenant à attribuer des scores aux réponses basés sur des réponses de référence facilement disponibles en anglais. Nos expériences démontrent qu'Hercule est plus étroitement aligné sur les jugements humains par rapport aux modèles propriétaires, démontrant ainsi l'efficacité d'une telle évaluation croisée linguistique dans des scénarios à ressources limitées. De plus, il est également efficace dans l'évaluation zéro-shot sur des langues non vues. Cette étude est la première examen complet de l'évaluation croisée linguistique utilisant des LLM, présentant une approche évolutive et efficace pour l'évaluation multilingue. Tout le code, les ensembles de données et les modèles seront disponibles publiquement pour permettre de nouvelles recherches dans ce domaine important.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary