Kruislingse automatische evaluatie voor het beoordelen van meertalige taalmodel met weinig leren.

Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs

October 17, 2024
Auteurs: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI

Samenvatting

Het evalueren van door machines gegenereerde tekst blijft een significante uitdaging in NLP, vooral voor niet-Engelse talen. Huidige methodologieën, waaronder geautomatiseerde metrieken, menselijke beoordelingen en LLM-gebaseerde evaluaties, richten zich voornamelijk op het Engels, wat een aanzienlijke lacune blootlegt in multilinguale evaluatiekaders. We introduceren de Cross Lingual Auto Evaluation (CIA) Suite, een uitbreidbaar kader dat evaluator LLM's (Hercule) en een nieuw testset (Recon) omvat die specifiek zijn ontworpen voor multilinguale evaluatie. Onze testset bevat 500 menselijk geannoteerde instructies die verschillende taakmogelijkheden bestrijken, samen met menselijke beoordelingsscores in zes talen. Dit zou benchmarking van algemene multilinguale LLM's mogelijk maken en het meta-evalueren van Evaluator LLM's vergemakkelijken. Het voorgestelde model, Hercule, is een cross-linguale evaluatiemodel dat het gebrek aan referentieantwoorden in de doeltaal aanpakt door te leren scores toe te kennen aan antwoorden op basis van gemakkelijk beschikbare referentieantwoorden in het Engels. Onze experimenten tonen aan dat Hercule nauwer aansluit bij menselijke beoordelingen in vergelijking met eigen modellen, wat de effectiviteit van dergelijke cross-linguale evaluatie in situaties met beperkte middelen aantoont. Bovendien is het ook effectief in zero-shot evaluatie van ongeziene talen. Deze studie is de eerste uitgebreide analyse van cross-linguale evaluatie met behulp van LLM's, en presenteert een schaalbare en effectieve benadering voor multilinguale beoordeling. Alle code, datasets en modellen zullen openbaar beschikbaar worden gesteld om verder onderzoek op dit belangrijke gebied mogelijk te maken.
English
Evaluating machine-generated text remains a significant challenge in NLP, especially for non-English languages. Current methodologies, including automated metrics, human assessments, and LLM-based evaluations, predominantly focus on English, revealing a significant gap in multilingual evaluation frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an extensible framework that includes evaluator LLMs (Hercule) and a novel test set (Recon) specifically designed for multilingual evaluation. Our test set features 500 human-annotated instructions spanning various task capabilities along with human judgment scores across six languages. This would enable benchmarking of general-purpose multilingual LLMs and facilitate meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a cross-lingual evaluation model that addresses the scarcity of reference answers in the target language by learning to assign scores to responses based on easily available reference answers in English. Our experiments demonstrate that Hercule aligns more closely with human judgments compared to proprietary models, demonstrating the effectiveness of such cross-lingual evaluation in low resource scenarios. Further, it is also effective in zero-shot evaluation on unseen languages. This study is the first comprehensive examination of cross-lingual evaluation using LLMs, presenting a scalable and effective approach for multilingual assessment. All code, datasets, and models will be publicly available to enable further research in this important area.

Summary

AI-Generated Summary

PDF12November 16, 2024