JuStRank: Evaluación de Jueces de LLM para la Clasificación del Sistema

Resumen

Dado el rápido progreso de la inteligencia artificial generativa, existe una necesidad apremiante de comparar y elegir sistemáticamente entre los numerosos modelos y configuraciones disponibles. La escala y versatilidad de tales evaluaciones hacen que el uso de jueces basados en LLM sea una solución convincente para este desafío. Es crucial que este enfoque requiera primero validar la calidad del juez LLM en sí mismo. Trabajos anteriores se han centrado en la evaluación basada en instancias de jueces LLM, donde un juez es evaluado sobre un conjunto de respuestas, o pares de respuestas, sin importar sus sistemas de origen. Sostenemos que esta configuración pasa por alto factores críticos que afectan la clasificación a nivel de sistema, como el sesgo positivo o negativo de un juez hacia ciertos sistemas. Para abordar esta brecha, llevamos a cabo el primer estudio a gran escala de jueces LLM como clasificadores de sistemas. Los puntajes del sistema se generan mediante la agregación de puntajes de juicio sobre múltiples salidas del sistema, y la calidad del juez se evalúa comparando la clasificación resultante del sistema con una clasificación basada en humanos. Más allá de la evaluación general del juez, nuestro análisis proporciona una caracterización detallada del comportamiento del juez, incluyendo su decisión y sesgo.

English

Given the rapid progress of generative AI, there is a pressing need to systematically compare and choose between the numerous models and configurations available. The scale and versatility of such evaluations make the use of LLM-based judges a compelling solution for this challenge. Crucially, this approach requires first to validate the quality of the LLM judge itself. Previous work has focused on instance-based assessment of LLM judges, where a judge is evaluated over a set of responses, or response pairs, while being agnostic to their source systems. We argue that this setting overlooks critical factors affecting system-level ranking, such as a judge's positive or negative bias towards certain systems. To address this gap, we conduct the first large-scale study of LLM judges as system rankers. System scores are generated by aggregating judgment scores over multiple system outputs, and the judge's quality is assessed by comparing the resulting system ranking to a human-based ranking. Beyond overall judge assessment, our analysis provides a fine-grained characterization of judge behavior, including their decisiveness and bias.

JuStRank: Evaluación de Jueces de LLM para la Clasificación del Sistema

JuStRank: Benchmarking LLM Judges for System Ranking

Resumen

Summary

Support

Support