JuStRank: Valutazione dei Giudici LLM per la Classificazione dei Sistemi
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Autori: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Abstract
Date i rapidi progressi dell'IA generativa, c'è un urgente bisogno di confrontare e scegliere in modo sistematico tra i numerosi modelli e configurazioni disponibili. La portata e la versatilità di tali valutazioni rendono l'uso di giudici basati su LLM una soluzione convincente per questa sfida. In modo cruciale, questo approccio richiede innanzitutto di convalidare la qualità del giudice LLM stesso. Lavori precedenti si sono concentrati sulla valutazione basata sull'istanza dei giudici LLM, in cui un giudice viene valutato su un insieme di risposte, o coppie di risposte, rimanendo agnostico rispetto ai loro sistemi di origine. Sosteniamo che questo contesto trascura fattori critici che influenzano la classifica a livello di sistema, come il bias positivo o negativo di un giudice verso determinati sistemi. Per affrontare questa lacuna, conduciamo il primo studio su larga scala dei giudici LLM come classificatori di sistemi. I punteggi dei sistemi sono generati aggregando i punteggi di giudizio su più output di sistema, e la qualità del giudice è valutata confrontando la classifica del sistema risultante con una classifica basata sull'umanità. Oltre alla valutazione complessiva del giudice, la nostra analisi fornisce una caratterizzazione dettagliata del comportamento del giudice, inclusa la sua decisionalità e il bias.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.Summary
AI-Generated Summary