CompassJudger-1 : Modèle de Juge Tout-en-un Aide à l'Évaluation et à l'Évolution des Modèles

Résumé

Une évaluation efficace et précise est cruciale pour l'amélioration continue des grands modèles de langage (LLM). Parmi les différentes méthodes d'évaluation, l'évaluation subjective a attiré une attention significative en raison de son excellente adéquation avec les scénarios d'utilisation réels et les préférences humaines. Cependant, les évaluations basées sur l'humain sont coûteuses et manquent de reproductibilité, ce qui rend les évaluateurs automatisés précis (juges) essentiels dans ce processus. Dans ce rapport, nous présentons CompassJudger-1, le premier juge LLM open source tout-en-un. CompassJudger-1 est un LLM polyvalent qui démontre une remarquable polyvalence. Il est capable de : 1. Effectuer des évaluations unitaires et des comparaisons de deux modèles en tant que modèle de récompense ; 2. Effectuer des évaluations selon des formats spécifiés ; 3. Générer des critiques ; 4. Exécuter diverses tâches comme un LLM général. Pour évaluer les capacités d'évaluation des différents modèles de juge dans un cadre unifié, nous avons également mis en place JudgerBench, un nouveau banc d'essai qui englobe diverses tâches d'évaluation subjective et couvre un large éventail de sujets. CompassJudger-1 offre une solution complète pour diverses tâches d'évaluation tout en conservant la flexibilité pour s'adapter à des exigences diverses. CompassJudger et JudgerBench sont tous deux publiés et disponibles pour la communauté de recherche sur https://github.com/open-compass/CompassJudger. Nous croyons qu'en rendant ces outils open source, nous pouvons favoriser la collaboration et accélérer les progrès dans les méthodologies d'évaluation des LLM.

English

Efficient and accurate evaluation is crucial for the continuous improvement of large language models (LLMs). Among various assessment methods, subjective evaluation has garnered significant attention due to its superior alignment with real-world usage scenarios and human preferences. However, human-based evaluations are costly and lack reproducibility, making precise automated evaluators (judgers) vital in this process. In this report, we introduce CompassJudger-1, the first open-source all-in-one judge LLM. CompassJudger-1 is a general-purpose LLM that demonstrates remarkable versatility. It is capable of: 1. Performing unitary scoring and two-model comparisons as a reward model; 2. Conducting evaluations according to specified formats; 3. Generating critiques; 4. Executing diverse tasks like a general LLM. To assess the evaluation capabilities of different judge models under a unified setting, we have also established JudgerBench, a new benchmark that encompasses various subjective evaluation tasks and covers a wide range of topics. CompassJudger-1 offers a comprehensive solution for various evaluation tasks while maintaining the flexibility to adapt to diverse requirements. Both CompassJudger and JudgerBench are released and available to the research community athttps://github.com/open-compass/CompassJudger. We believe that by open-sourcing these tools, we can foster collaboration and accelerate progress in LLM evaluation methodologies.

CompassJudger-1 : Modèle de Juge Tout-en-un Aide à l'Évaluation et à l'Évolution des Modèles

CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

Résumé

Summary

Support