CompassJudger-1: All-in-one Richter-Modell unterstützt Modellbewertung und -entwicklung
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Autoren: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Zusammenfassung
Eine effiziente und genaue Bewertung ist entscheidend für die kontinuierliche Verbesserung großer Sprachmodelle (LLMs). Unter verschiedenen Bewertungsmethoden hat die subjektive Bewertung aufgrund ihrer überlegenen Ausrichtung auf realistische Anwendungsszenarien und menschliche Präferenzen erhebliche Aufmerksamkeit erregt. Menschliche Bewertungen sind jedoch kostspielig und mangelt es an Reproduzierbarkeit, wodurch präzise automatisierte Bewertungssysteme (Richter) in diesem Prozess unerlässlich sind. In diesem Bericht stellen wir CompassJudger-1 vor, den ersten Open-Source-Alleskönner-Richter für LLMs. CompassJudger-1 ist ein vielseitiges LLM für allgemeine Zwecke, das bemerkenswerte Vielseitigkeit zeigt. Es ist in der Lage: 1. Einzelbewertungen und Zwei-Modell-Vergleiche als Belohnungsmodell durchzuführen; 2. Bewertungen gemäß festgelegten Formaten durchzuführen; 3. Kritiken zu generieren; 4. Diverse Aufgaben wie ein allgemeines LLM auszuführen. Um die Bewertungsfähigkeiten verschiedener Richtermodelle in einer einheitlichen Umgebung zu bewerten, haben wir auch JudgerBench eingeführt, einen neuen Benchmark, der verschiedene subjektive Bewertungsaufgaben umfasst und eine Vielzahl von Themen abdeckt. CompassJudger-1 bietet eine umfassende Lösung für verschiedene Bewertungsaufgaben und behält gleichzeitig die Flexibilität bei, sich an unterschiedliche Anforderungen anzupassen. Sowohl CompassJudger als auch JudgerBench sind veröffentlicht und stehen der Forschungsgemeinschaft unter https://github.com/open-compass/CompassJudger zur Verfügung. Wir sind der Überzeugung, dass wir durch die Freigabe dieser Tools die Zusammenarbeit fördern und den Fortschritt bei der Bewertungsmethodik von LLMs beschleunigen können.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary