ChatPaper.aiChatPaper

xVerify: Verificatore Efficiente delle Risposte per la Valutazione dei Modelli di Ragionamento

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

April 14, 2025
Autori: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI

Abstract

Con il rilascio del modello o1 da parte di OpenAI, sono gradualmente emersi modelli di ragionamento che adottano strategie di pensiero lento. Poiché le risposte generate da tali modelli spesso includono ragionamenti complessi, passaggi intermedi e autoriflessione, i metodi di valutazione esistenti si rivelano spesso inadeguati. Faticano a determinare se l'output del modello linguistico (LLM) sia effettivamente equivalente alla risposta di riferimento e hanno difficoltà a identificare ed estrarre la risposta finale da risposte lunghe e complesse. Per affrontare questo problema, proponiamo xVerify, un verificatore di risposte efficiente per la valutazione dei modelli di ragionamento. xVerify dimostra una forte capacità nel giudicare l'equivalenza, consentendogli di determinare efficacemente se le risposte prodotte dai modelli di ragionamento siano equivalenti alle risposte di riferimento su vari tipi di domande oggettive. Per addestrare e valutare xVerify, costruiamo il dataset VAR raccogliendo coppie domanda-risposta generate da più LLM su vari dataset, sfruttando modelli di ragionamento multipli e set di valutazione progettati specificamente per la valutazione dei modelli di ragionamento. Un processo di annotazione a più round viene impiegato per garantire l'accuratezza delle etichette. Basandoci sul dataset VAR, addestriamo più modelli xVerify di diverse dimensioni. Negli esperimenti di valutazione condotti sia sul set di test che sul set di generalizzazione, tutti i modelli xVerify raggiungono punteggi F1 complessivi e accuratezza superiori al 95%. In particolare, la variante più piccola, xVerify-0.5B-I, supera tutti i metodi di valutazione tranne GPT-4o, mentre xVerify-3B-Ib supera GPT-4o in termini di prestazioni complessive. Questi risultati convalidano l'efficacia e la generalizzabilità di xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.

Summary

AI-Generated Summary

PDF772April 16, 2025