PRMBench: un benchmark dettagliato e impegnativo per i modelli di ricompensa a livello di processo.

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
Autori: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

Abstract

I modelli di ricompensa a livello di processo (PRM) sono cruciali per compiti di ragionamento e decisione complessi, dove ogni passaggio intermedio gioca un ruolo importante nel processo di ragionamento. Poiché i modelli linguistici sono inclini a vari tipi di errori durante il processo di ragionamento, i PRM devono possedere capacità sfumate per rilevare vari tipi di errori impliciti in scenari del mondo reale. Tuttavia, i benchmark attuali si concentrano principalmente sulla correttezza dei passaggi, non valutando in modo sistematico le prestazioni dei PRM. Per colmare questa lacuna, presentiamo PRMBench, un benchmark a livello di processo progettato specificamente per valutare le capacità di rilevamento degli errori dettagliati dei PRM. PRMBench comprende 6.216 problemi attentamente progettati e 83.456 etichette a livello di passaggio, valutando i modelli su molteplici dimensioni, inclusa la semplicità, la solidità e la sensibilità. Nei nostri esperimenti su 15 modelli, che spaziano sia tra PRM open-source che tra grandi modelli linguistici closed-source sollecitati come modelli critici, scopriamo significative debolezze nei PRM attuali. Queste scoperte sottolineano le sfide intrinseche nella valutazione a livello di processo e mettono in evidenza direzioni chiave per la ricerca futura. Speriamo che PRMBench possa essere un banco di prova robusto per far progredire la ricerca sulla valutazione e lo sviluppo dei PRM.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025