JuStRank: Evaluación de Jueces de LLM para la Clasificación del Sistema
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Autores: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Resumen
Dado el rápido progreso de la inteligencia artificial generativa, existe una necesidad apremiante de comparar y elegir sistemáticamente entre los numerosos modelos y configuraciones disponibles. La escala y versatilidad de tales evaluaciones hacen que el uso de jueces basados en LLM sea una solución convincente para este desafío. Es crucial que este enfoque requiera primero validar la calidad del juez LLM en sí mismo. Trabajos anteriores se han centrado en la evaluación basada en instancias de jueces LLM, donde un juez es evaluado sobre un conjunto de respuestas, o pares de respuestas, sin importar sus sistemas de origen. Sostenemos que esta configuración pasa por alto factores críticos que afectan la clasificación a nivel de sistema, como el sesgo positivo o negativo de un juez hacia ciertos sistemas. Para abordar esta brecha, llevamos a cabo el primer estudio a gran escala de jueces LLM como clasificadores de sistemas. Los puntajes del sistema se generan mediante la agregación de puntajes de juicio sobre múltiples salidas del sistema, y la calidad del juez se evalúa comparando la clasificación resultante del sistema con una clasificación basada en humanos. Más allá de la evaluación general del juez, nuestro análisis proporciona una caracterización detallada del comportamiento del juez, incluyendo su decisión y sesgo.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.Summary
AI-Generated Summary