Kreuzsprachige automatische Evaluation zur Bewertung mehrsprachiger LLMs.
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Autoren: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Zusammenfassung
Die Bewertung von maschinengeneriertem Text bleibt eine bedeutende Herausforderung im Bereich der natürlichen Sprachverarbeitung (NLP), insbesondere für nicht-englische Sprachen. Aktuelle Methodologien, einschließlich automatisierter Metriken, menschlicher Bewertungen und LLM-basierter Bewertungen, konzentrieren sich hauptsächlich auf Englisch und zeigen eine signifikante Lücke in mehrsprachigen Bewertungsrahmen auf. Wir stellen die Cross-Lingual Auto Evaluation (CIA) Suite vor, ein erweiterbares Framework, das Evaluatoren LLMs (Hercule) und einen neuartigen Testdatensatz (Recon) umfasst, der speziell für mehrsprachige Bewertungen entwickelt wurde. Unser Testdatensatz umfasst 500 menschlich annotierte Anweisungen, die verschiedene Aufgabenfähigkeiten abdecken, sowie menschliche Bewertungspunkte in sechs Sprachen. Dies ermöglicht die Benchmarking von allgemeinen mehrsprachigen LLMs und erleichtert die Meta-Bewertung von Evaluatoren LLMs. Das vorgeschlagene Modell, Hercule, ist ein cross-linguales Bewertungsmodell, das der Knappheit von Referenzantworten in der Zielsprache begegnet, indem es lernt, Punkte für Antworten basierend auf leicht verfügbaren Referenzantworten auf Englisch zuzuweisen. Unsere Experimente zeigen, dass Hercule im Vergleich zu proprietären Modellen enger mit menschlichen Bewertungen übereinstimmt und somit die Wirksamkeit einer solchen cross-lingualen Bewertung in Szenarien mit geringen Ressourcen demonstriert. Darüber hinaus ist es auch effektiv bei der Null-Schuss-Bewertung in unbekannten Sprachen. Diese Studie ist die erste umfassende Untersuchung der cross-lingualen Bewertung unter Verwendung von LLMs und präsentiert einen skalierbaren und effektiven Ansatz für mehrsprachige Bewertungen. Der gesamte Code, Datensätze und Modelle werden öffentlich zugänglich sein, um weitere Forschung in diesem wichtigen Bereich zu ermöglichen.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary