ChatPaper.aiChatPaper

ProcessBench: 수학적 추론에서의 과정 오류 식별

ProcessBench: Identifying Process Errors in Mathematical Reasoning

December 9, 2024
저자: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

초록

언어 모델은 수학 문제를 해결할 때 정기적으로 오류를 발생시키므로, 추론 과정에서의 오류를 자동으로 식별하는 것이 그들의 확장 가능한 감독에 점점 더 중요해집니다. 본 논문에서는 수학적 추론에서 잘못된 단계를 식별하는 능력을 측정하는 ProcessBench를 소개합니다. 이는 경쟁 및 올림피아드 수준의 수학 문제에 주로 초점을 맞춘 3,400개의 테스트 케이스로 구성되어 있습니다. 각 테스트 케이스에는 인간 전문가가 주석을 달아 오류 위치가 표시된 단계별 솔루션이 포함되어 있습니다. 모델은 오류가 포함된 가장 초기의 단계를 식별하거나 모든 단계가 올바르다고 결론 내야 합니다. 우리는 ProcessBench에서 광범위한 평가를 실시하며, 프로세스 보상 모델 (PRM) 및 비평가 모델 두 가지 유형의 모델을 사용합니다. 후자의 경우 일반 언어 모델에 각 솔루션 단계를 비평하도록 유도합니다. 우리는 두 가지 주요 관찰을 얻었습니다: (1) 기존 PRM은 일반화가 어려운 GSM8K 및 MATH를 넘어서는 더 어려운 수학 문제에 대해 일반적으로 실패합니다. 이들은 비평가 모델 (즉, 유도된 일반 언어 모델)과 PRM800K 데이터셋에서 간단히 세밀하게 조정된 우리 자체 훈련된 PRM에 모두 성능이 떨어집니다. (2) 최고의 오픈 소스 모델인 QwQ-32B-Preview는 GPT-4o와 경쟁력 있는 비평 능력을 보여주었으나, 여전히 추론에 특화된 o1-mini에 뒤처지고 있습니다. 우리는 ProcessBench가 언어 모델의 확장 가능한 감독을 향한 길을 열어주며 추론 과정 평가에 대한 미래 연구를 촉진할 수 있기를 희망합니다.
English
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

Summary

AI-Generated Summary

PDF806December 10, 2024