ProcessBench: Identificazione degli errori nei processi di ragionamento matematico

Abstract

Poiché i modelli linguistici commettono regolarmente errori nel risolvere problemi matematici, l'identificazione automatizzata degli errori nel processo di ragionamento diventa sempre più significativa per la loro supervisione scalabile. In questo articolo, presentiamo ProcessBench per misurare la capacità di individuare passaggi errati nel ragionamento matematico. Esso consiste di 3.400 casi di test, principalmente focalizzati su problemi matematici di livello competitivo e olimpiadi. Ogni caso di test contiene una soluzione passo dopo passo con la posizione dell'errore annotata da esperti umani. I modelli devono individuare il primo passaggio che contiene un errore, o concludere che tutti i passaggi sono corretti. Conduciamo una valutazione approfondita su ProcessBench, coinvolgendo due tipi di modelli: modelli di ricompensa del processo (PRM) e modelli critici, dove per quest'ultimi sollecitiamo modelli linguistici generali a criticare ogni passaggio della soluzione. Traggiamo due osservazioni principali: (1) I PRM esistenti tendono a non generalizzare a problemi matematici più impegnativi oltre GSM8K e MATH. Essi hanno prestazioni inferiori sia rispetto ai modelli critici (cioè, modelli linguistici generali sollecitati) sia rispetto al nostro PRM addestrato che è stato semplicemente raffinato sul dataset PRM800K. (2) Il miglior modello open-source, QwQ-32B-Preview, ha dimostrato una capacità critica competitiva con il modello proprietario GPT-4o, nonostante rimanga indietro rispetto all'o1-mini specializzato nel ragionamento. Ci auguriamo che ProcessBench possa promuovere futura ricerca nella valutazione del processo di ragionamento, aprendo la strada alla supervisione scalabile dei modelli linguistici.

English

As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

ProcessBench: Identificazione degli errori nei processi di ragionamento matematico

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Abstract

Support