VerifiAgent: un Agente di Verifica Unificato nel Ragionamento dei Modelli Linguistici
VerifiAgent: a Unified Verification Agent in Language Model Reasoning
April 1, 2025
Autori: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
Abstract
I grandi modelli linguistici dimostrano capacità di ragionamento notevoli, ma spesso producono risposte inaffidabili o errate. I metodi di verifica esistenti sono tipicamente specifici per un determinato modello o limitati a un dominio, richiedono risorse computazionali significative e mancano di scalabilità su compiti di ragionamento diversi. Per affrontare queste limitazioni, proponiamo VerifiAgent, un agente di verifica unificato che integra due livelli di verifica: meta-verifica, che valuta la completezza e la coerenza delle risposte del modello, e verifica adattiva basata su strumenti, in cui VerifiAgent seleziona autonomamente gli strumenti di verifica appropriati in base al tipo di ragionamento, inclusi ragionamenti matematici, logici o di senso comune. Questo approccio adattivo garantisce sia efficienza che robustezza in diversi scenari di verifica. I risultati sperimentali mostrano che VerifiAgent supera i metodi di verifica di base (ad esempio, verificatore deduttivo, verificatore a ritroso) in tutti i compiti di ragionamento. Inoltre, può ulteriormente migliorare l'accuratezza del ragionamento sfruttando il feedback dai risultati della verifica. VerifiAgent può anche essere applicato efficacemente al ridimensionamento dell'inferenza, ottenendo risultati migliori con meno campioni generati e costi ridotti rispetto ai modelli di ricompensa del processo esistenti nel dominio del ragionamento matematico. Il codice è disponibile all'indirizzo https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often
produce unreliable or incorrect responses. Existing verification methods are
typically model-specific or domain-restricted, requiring significant
computational resources and lacking scalability across diverse reasoning tasks.
To address these limitations, we propose VerifiAgent, a unified verification
agent that integrates two levels of verification: meta-verification, which
assesses completeness and consistency in model responses, and tool-based
adaptive verification, where VerifiAgent autonomously selects appropriate
verification tools based on the reasoning type, including mathematical,
logical, or commonsense reasoning. This adaptive approach ensures both
efficiency and robustness across different verification scenarios. Experimental
results show that VerifiAgent outperforms baseline verification methods (e.g.,
deductive verifier, backward verifier) among all reasoning tasks. Additionally,
it can further enhance reasoning accuracy by leveraging feedback from
verification results. VerifiAgent can also be effectively applied to inference
scaling, achieving better results with fewer generated samples and costs
compared to existing process reward models in the mathematical reasoning
domain. Code is available at https://github.com/Jiuzhouh/VerifiAgentSummary
AI-Generated Summary