ChatPaper.aiChatPaper

JudgeLRM: Modelli di Ragionamento su Grande Scala come Giudici

JudgeLRM: Large Reasoning Models as a Judge

March 31, 2025
Autori: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI

Abstract

L'ascesa dei Large Language Models (LLM) come valutatori offre un'alternativa scalabile all'annotazione umana, tuttavia gli approcci esistenti di Supervised Fine-Tuning (SFT) per i giudici spesso si rivelano insufficienti nei domini che richiedono ragionamenti complessi. In questo lavoro, indaghiamo se i giudici LLM traggono effettivo vantaggio da capacità di ragionamento potenziate. Attraverso un'analisi dettagliata dei requisiti di ragionamento nei compiti di valutazione, riveliamo una correlazione negativa tra i miglioramenti delle prestazioni dell'SFT e la proporzione di campioni che richiedono ragionamenti complessi, evidenziando i limiti dell'SFT in tali scenari. Per affrontare questo problema, introduciamo JudgeLRM, una famiglia di LLM orientati al giudizio addestrati utilizzando il reinforcement learning (RL) con ricompense guidate dai risultati e specifiche per i giudici. I modelli JudgeLRM superano costantemente sia i modelli ottimizzati con SFT che i modelli di ragionamento all'avanguardia. In particolare, JudgeLRM-3B supera GPT-4, e JudgeLRM-7B supera DeepSeek-R1 del 2,79% nel punteggio F1, eccellendo soprattutto nei compiti di giudizio che richiedono un ragionamento profondo.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for judges approaches often fall short in domains requiring complex reasoning. In this work, we investigate whether LLM judges truly benefit from enhanced reasoning capabilities. Through a detailed analysis of reasoning requirements across evaluation tasks, we reveal a negative correlation between SFT performance gains and the proportion of reasoning-demanding samples - highlighting the limitations of SFT in such scenarios. To address this, we introduce JudgeLRM, a family of judgment-oriented LLMs trained using reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM models consistently outperform both SFT-tuned and state-of-the-art reasoning models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks requiring deep reasoning.

Summary

AI-Generated Summary

PDF596April 2, 2025