PRMBench: Um Benchmark Detalhado e Desafiador para Modelos de Recompensa ao Nível de Processo
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
January 6, 2025
Autores: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
Resumo
Os Modelos de Recompensa a Nível de Processo (PRMs) são cruciais para tarefas de raciocínio e tomada de decisão complexas, onde cada passo intermediário desempenha um papel importante no processo de raciocínio. Uma vez que os modelos de linguagem são propensos a vários tipos de erros durante o processo de raciocínio, os PRMs devem possuir capacidades sutis para detectar vários tipos de erros implícitos em cenários do mundo real. No entanto, os benchmarks atuais focam principalmente na correção dos passos, falhando em avaliar sistematicamente o desempenho dos PRMs. Para preencher essa lacuna, apresentamos o PRMBench, um benchmark a nível de processo especificamente projetado para avaliar as capacidades de detecção de erros refinados dos PRMs. O PRMBench é composto por 6.216 problemas cuidadosamente elaborados e 83.456 rótulos a nível de passo, avaliando modelos em várias dimensões, incluindo simplicidade, solidez e sensibilidade. Em nossos experimentos com 15 modelos, abrangendo tanto PRMs de código aberto quanto grandes modelos de linguagem de código fechado solicitados como modelos críticos, revelamos fraquezas significativas nos PRMs atuais. Essas descobertas destacam os desafios inerentes à avaliação a nível de processo e apontam direções-chave para pesquisas futuras. Esperamos que o PRMBench possa ser uma plataforma robusta para avançar na pesquisa sobre avaliação e desenvolvimento de PRMs.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and
decision-making tasks, where each intermediate step plays an important role in
the reasoning process. Since language models are prone to various types of
errors during the reasoning process, PRMs are required to possess nuanced
capabilities for detecting various implicit error types in real-world
scenarios. However, current benchmarks primarily focus on step correctness,
failing to evaluate PRMs' performance systematically. To address this gap, we
introduce PRMBench, a process-level benchmark specifically designed to assess
the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216
carefully designed problems and 83,456 step-level labels, evaluating models
across multiple dimensions, including simplicity, soundness, and sensitivity.
In our experiments on 15 models, spanning both open-source PRMs and
closed-source large language models prompted as critic models, we uncover
significant weaknesses in current PRMs. These findings underscore the
challenges inherent in process-level evaluation and highlight key directions
for future research. We hope PRMBench can be a robust bench for advancing
research on PRM evaluation and development.Summary
AI-Generated Summary