ChatPaper.aiChatPaper

Heimdall: scalabilità durante il test nella verifica generativa

Heimdall: test-time scaling on the generative verification

April 14, 2025
Autori: Wenlei Shi, Xing Jin
cs.AI

Abstract

Un sistema di intelligenza artificiale può creare e mantenere conoscenza solo nella misura in cui è in grado di verificare tale conoscenza autonomamente. Recenti lavori sul ragionamento a lunga catena di pensiero (Chain-of-Thought, CoT) hanno dimostrato il grande potenziale dei modelli linguistici di grandi dimensioni (LLM) nel risolvere problemi competitivi, ma la loro capacità di verifica rimane debole e non sufficientemente investigata. In questo articolo, proponiamo Heimdall, un LLM per la verifica di lunghe catene di pensiero, in grado di giudicare con precisione la correttezza delle soluzioni. Utilizzando il puro apprendimento per rinforzo, abbiamo aumentato l'accuratezza della verifica dal 62,5% al 94,5% su problemi matematici competitivi. Scalando con campionamenti ripetuti, l'accuratezza aumenta ulteriormente fino al 97,5%. Attraverso valutazioni umane, Heimdall dimostra impressionanti capacità di generalizzazione, riuscendo a rilevare la maggior parte degli errori in dimostrazioni matematiche complesse, un tipo di problema non incluso durante l'addestramento. Inoltre, proponiamo la Verifica Pessimistica per estendere la funzionalità di Heimdall al miglioramento della risoluzione dei problemi. Questa tecnica utilizza Heimdall per giudicare le soluzioni fornite da un modello risolutore e, basandosi sul principio pessimistico, seleziona la soluzione più probabile corretta con la minore incertezza. Utilizzando DeepSeek-R1-Distill-Qwen-32B come modello risolutore, la Verifica Pessimistica migliora l'accuratezza delle soluzioni su AIME2025 dal 54,2% al 70,0% con un budget computazionale 16 volte superiore e all'83,3% con un budget ancora maggiore. Con il modello risolutore più potente Gemini 2.5 Pro, il punteggio raggiunge il 93,0%. Infine, prototipiamo un sistema automatico di scoperta della conoscenza, un sistema ternario in cui uno componente pone domande, un altro fornisce soluzioni e il terzo verifica le soluzioni. Utilizzando il lavoro di sintesi dati NuminaMath per i primi due componenti, Heimdall identifica efficacemente i record problematici all'interno del dataset e rivela che quasi la metà dei dati è difettosa, un risultato che curiosamente si allinea con i recenti studi di ablazione di NuminaMath.
English
An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.

Summary

AI-Generated Summary

PDF292April 16, 2025