CompassJudger-1: Alles-in-één Beoordelingsmodel Helpt bij Model Evaluatie en Evolutie
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Auteurs: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Efficiënte en nauwkeurige evaluatie is cruciaal voor de voortdurende verbetering van grote taalmodellen (TMs). Onder verschillende beoordelingsmethoden heeft subjectieve evaluatie aanzienlijke aandacht gekregen vanwege de superieure afstemming op real-world gebruiksscenario's en menselijke voorkeuren. Menselijke evaluaties zijn echter kostbaar en missen reproduceerbaarheid, waardoor precieze geautomatiseerde beoordelaars essentieel zijn in dit proces. In dit rapport introduceren we CompassJudger-1, de eerste open-source alles-in-één beoordelaar TM. CompassJudger-1 is een algemeen TM dat opmerkelijke veelzijdigheid toont. Het is in staat tot: 1. Het uitvoeren van enkelvoudige scoring en het vergelijken van twee modellen als een beloningsmodel; 2. Het uitvoeren van evaluaties volgens gespecificeerde formats; 3. Het genereren van kritieken; 4. Het uitvoeren van diverse taken zoals een algemeen TM. Om de evaluatiemogelijkheden van verschillende beoordelingsmodellen onder een uniforme instelling te beoordelen, hebben we ook JudgerBench opgericht, een nieuwe benchmark die verschillende subjectieve evaluatietaken omvat en een breed scala aan onderwerpen bestrijkt. CompassJudger-1 biedt een allesomvattende oplossing voor verschillende evaluatietaken terwijl het de flexibiliteit behoudt om zich aan te passen aan diverse vereisten. Zowel CompassJudger als JudgerBench zijn vrijgegeven en beschikbaar voor de onderzoeksgemeenschap op https://github.com/open-compass/CompassJudger. We geloven dat door deze tools open-source te maken, we samenwerking kunnen bevorderen en vooruitgang kunnen versnellen in TM-evaluatiemethodologieën.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary