PRMBench: プロセスレベルの報酬モデルに対する精緻で厳しいベンチマーク

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
著者: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

要旨

プロセスレベルリワードモデル(PRMs)は、各中間ステップが推論プロセスで重要な役割を果たす複雑な推論および意思決定タスクにおいて重要です。言語モデルは推論プロセス中にさまざまなタイプのエラーに弱いため、PRMsは現実世界のシナリオでさまざまな暗黙のエラータイプを検出する微妙な能力を持つ必要があります。ただし、現在のベンチマークは主にステップの正確性に焦点を当てており、PRMsのパフォーマンスを体系的に評価していません。このギャップを埋めるために、PRMsの微細なエラー検出能力を評価するために特別に設計されたプロセスレベルベンチマークであるPRMBenchを紹介します。PRMBenchには、6,216の慎重に設計された問題と83,456のステップレベルのラベルが含まれており、モデルを単純さ、正確さ、感度を含む複数の次元で評価します。15のモデルについての実験では、オープンソースのPRMsとクローズドソースの大規模言語モデルがクリティックモデルとして提示され、現在のPRMsの重要な弱点が明らかになりました。これらの知見は、プロセスレベルの評価に固有の課題を強調し、将来の研究の重要な方向性を示しています。PRMBenchがPRMの評価と開発の研究を推進するための堅牢なベンチとなることを期待しています。
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025