CompassJudger-1 : Modèle de Juge Tout-en-un Aide à l'Évaluation et à l'Évolution des Modèles
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Auteurs: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Résumé
Une évaluation efficace et précise est cruciale pour l'amélioration continue des grands modèles de langage (LLM). Parmi les différentes méthodes d'évaluation, l'évaluation subjective a attiré une attention significative en raison de son excellente adéquation avec les scénarios d'utilisation réels et les préférences humaines. Cependant, les évaluations basées sur l'humain sont coûteuses et manquent de reproductibilité, ce qui rend les évaluateurs automatisés précis (juges) essentiels dans ce processus. Dans ce rapport, nous présentons CompassJudger-1, le premier juge LLM open source tout-en-un. CompassJudger-1 est un LLM polyvalent qui démontre une remarquable polyvalence. Il est capable de : 1. Effectuer des évaluations unitaires et des comparaisons de deux modèles en tant que modèle de récompense ; 2. Effectuer des évaluations selon des formats spécifiés ; 3. Générer des critiques ; 4. Exécuter diverses tâches comme un LLM général. Pour évaluer les capacités d'évaluation des différents modèles de juge dans un cadre unifié, nous avons également mis en place JudgerBench, un nouveau banc d'essai qui englobe diverses tâches d'évaluation subjective et couvre un large éventail de sujets. CompassJudger-1 offre une solution complète pour diverses tâches d'évaluation tout en conservant la flexibilité pour s'adapter à des exigences diverses. CompassJudger et JudgerBench sont tous deux publiés et disponibles pour la communauté de recherche sur https://github.com/open-compass/CompassJudger. Nous croyons qu'en rendant ces outils open source, nous pouvons favoriser la collaboration et accélérer les progrès dans les méthodologies d'évaluation des LLM.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary