JudgeBench: Een benchmark voor het evalueren van rechters gebaseerd op LLM.
JudgeBench: A Benchmark for Evaluating LLM-based Judges
October 16, 2024
Auteurs: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI
Samenvatting
LLM-gebaseerde beoordelaars zijn naar voren gekomen als een schaalbaar alternatief voor menselijke evaluatie en worden steeds vaker gebruikt om modellen te beoordelen, vergelijken en verbeteren. De betrouwbaarheid van LLM-gebaseerde beoordelaars zelf wordt echter zelden onderzocht. Naarmate LLM's geavanceerder worden, worden hun reacties complexer, waardoor sterkere beoordelaars nodig zijn om ze te evalueren. Bestaande benchmarks richten zich voornamelijk op de afstemming van een beoordelaar op menselijke voorkeuren, maar houden vaak geen rekening met meer uitdagende taken waar crowdsourced menselijke voorkeur een slechte indicator is voor feitelijke en logische correctheid. Om dit aan te pakken, stellen wij een nieuw evaluatiekader voor om LLM-gebaseerde beoordelaars objectief te beoordelen. Op basis van dit kader stellen wij JudgeBench voor, een benchmark voor het evalueren van LLM-gebaseerde beoordelaars op uitdagende responsparen die kennis, redenering, wiskunde en codering omvatten. JudgeBench maakt gebruik van een nieuw proces om bestaande moeilijke datasets om te zetten in uitdagende responsparen met voorkeurslabels die objectieve correctheid weerspiegelen. Onze uitgebreide evaluatie op een verzameling aangezwengelde beoordelaars, fijn afgestelde beoordelaars, multi-agent beoordelaars en beloningsmodellen toont aan dat JudgeBench aanzienlijk uitdagender is dan eerdere benchmarks, waarbij veel sterke modellen (bijv. GPT-4o) slechts iets beter presteren dan willekeurig raden. Over het algemeen biedt JudgeBench een betrouwbaar platform voor het beoordelen van steeds geavanceerdere LLM-gebaseerde beoordelaars. Gegevens en code zijn beschikbaar op https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation
and are increasingly used to assess, compare, and improve models. However, the
reliability of LLM-based judges themselves is rarely scrutinized. As LLMs
become more advanced, their responses grow more sophisticated, requiring
stronger judges to evaluate them. Existing benchmarks primarily focus on a
judge's alignment with human preferences, but often fail to account for more
challenging tasks where crowdsourced human preference is a poor indicator of
factual and logical correctness. To address this, we propose a novel evaluation
framework to objectively evaluate LLM-based judges. Based on this framework, we
propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging
response pairs spanning knowledge, reasoning, math, and coding. JudgeBench
leverages a novel pipeline for converting existing difficult datasets into
challenging response pairs with preference labels reflecting objective
correctness. Our comprehensive evaluation on a collection of prompted judges,
fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench
poses a significantly greater challenge than previous benchmarks, with many
strong models (e.g., GPT-4o) performing just slightly better than random
guessing. Overall, JudgeBench offers a reliable platform for assessing
increasingly advanced LLM-based judges. Data and code are available at
https://github.com/ScalerLab/JudgeBench .Summary
AI-Generated Summary