PRMBench: Um Benchmark Detalhado e Desafiador para Modelos de Recompensa ao Nível de Processo

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
Autores: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

Resumo

Os Modelos de Recompensa a Nível de Processo (PRMs) são cruciais para tarefas de raciocínio e tomada de decisão complexas, onde cada passo intermediário desempenha um papel importante no processo de raciocínio. Uma vez que os modelos de linguagem são propensos a vários tipos de erros durante o processo de raciocínio, os PRMs devem possuir capacidades sutis para detectar vários tipos de erros implícitos em cenários do mundo real. No entanto, os benchmarks atuais focam principalmente na correção dos passos, falhando em avaliar sistematicamente o desempenho dos PRMs. Para preencher essa lacuna, apresentamos o PRMBench, um benchmark a nível de processo especificamente projetado para avaliar as capacidades de detecção de erros refinados dos PRMs. O PRMBench é composto por 6.216 problemas cuidadosamente elaborados e 83.456 rótulos a nível de passo, avaliando modelos em várias dimensões, incluindo simplicidade, solidez e sensibilidade. Em nossos experimentos com 15 modelos, abrangendo tanto PRMs de código aberto quanto grandes modelos de linguagem de código fechado solicitados como modelos críticos, revelamos fraquezas significativas nos PRMs atuais. Essas descobertas destacam os desafios inerentes à avaliação a nível de processo e apontam direções-chave para pesquisas futuras. Esperamos que o PRMBench possa ser uma plataforma robusta para avançar na pesquisa sobre avaliação e desenvolvimento de PRMs.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025