ChatPaper.aiChatPaper

PRMBench: 프로세스 수준 보상 모델을 위한 세밀하고 도전적인 벤치마크

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
저자: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

초록

과정 수준 보상 모델(PRMs)은 중요한 중간 단계가 추론 과정에서 중요한 역할을 하는 복잡한 추론 및 의사 결정 작업에 중요합니다. 언어 모델은 추론 과정 중 다양한 유형의 오류에 취약하기 때문에 PRMs는 현실 세계 시나리오에서 다양한 암시적 오류 유형을 감지하기 위한 세심한 능력을 가져야 합니다. 그러나 현재의 벤치마크는 주로 단계 정확성에 초점을 맞추어 PRMs의 성능을 체계적으로 평가하지 못하고 있습니다. 이러한 공백을 해결하기 위해 PRMs의 세밀한 오류 감지 능력을 평가하기 위해 특별히 설계된 과정 수준 벤치마크인 PRMBench를 소개합니다. PRMBench는 6,216개의 신중히 설계된 문제와 83,456개의 단계 수준 레이블로 구성되어 있으며, 모델을 간단성, 타당성 및 민감도를 포함한 여러 차원에서 평가합니다. 15개 모델에 대한 실험에서 오픈 소스 PRMs와 비포장된 대형 언어 모델을 비평가 모델로 사용하여 현재 PRMs의 중요한 약점을 발견했습니다. 이러한 발견은 과정 수준 평가에 내재된 도전과 미래 연구의 주요 방향을 강조합니다. PRMBench가 PRM 평가 및 개발 연구를 진전시키는 견고한 벤치마크가 될 수 있기를 희망합니다.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025