JudgeBench: Een benchmark voor het evalueren van rechters gebaseerd op LLM.

Samenvatting

LLM-gebaseerde beoordelaars zijn naar voren gekomen als een schaalbaar alternatief voor menselijke evaluatie en worden steeds vaker gebruikt om modellen te beoordelen, vergelijken en verbeteren. De betrouwbaarheid van LLM-gebaseerde beoordelaars zelf wordt echter zelden onderzocht. Naarmate LLM's geavanceerder worden, worden hun reacties complexer, waardoor sterkere beoordelaars nodig zijn om ze te evalueren. Bestaande benchmarks richten zich voornamelijk op de afstemming van een beoordelaar op menselijke voorkeuren, maar houden vaak geen rekening met meer uitdagende taken waar crowdsourced menselijke voorkeur een slechte indicator is voor feitelijke en logische correctheid. Om dit aan te pakken, stellen wij een nieuw evaluatiekader voor om LLM-gebaseerde beoordelaars objectief te beoordelen. Op basis van dit kader stellen wij JudgeBench voor, een benchmark voor het evalueren van LLM-gebaseerde beoordelaars op uitdagende responsparen die kennis, redenering, wiskunde en codering omvatten. JudgeBench maakt gebruik van een nieuw proces om bestaande moeilijke datasets om te zetten in uitdagende responsparen met voorkeurslabels die objectieve correctheid weerspiegelen. Onze uitgebreide evaluatie op een verzameling aangezwengelde beoordelaars, fijn afgestelde beoordelaars, multi-agent beoordelaars en beloningsmodellen toont aan dat JudgeBench aanzienlijk uitdagender is dan eerdere benchmarks, waarbij veel sterke modellen (bijv. GPT-4o) slechts iets beter presteren dan willekeurig raden. Over het algemeen biedt JudgeBench een betrouwbaar platform voor het beoordelen van steeds geavanceerdere LLM-gebaseerde beoordelaars. Gegevens en code zijn beschikbaar op https://github.com/ScalerLab/JudgeBench.

English

LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

JudgeBench: Een benchmark voor het evalueren van rechters gebaseerd op LLM.

JudgeBench: A Benchmark for Evaluating LLM-based Judges

Samenvatting

Summary

Support