T1: Auto-verifica integrata negli strumenti per il ridimensionamento computazionale al momento del test nei piccoli modelli linguistici
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models
April 7, 2025
Autori: Minki Kang, Jongwon Jeong, Jaewoong Cho
cs.AI
Abstract
Studi recenti hanno dimostrato che il ridimensionamento del calcolo al momento del test migliora efficacemente le prestazioni dei piccoli modelli linguistici (sLM). Tuttavia, le ricerche precedenti hanno principalmente esaminato il ridimensionamento del calcolo al momento del test utilizzando un modello più grande come verificatore, lasciando poco esplorata l'autoverifica da parte degli sLM. In questo lavoro, indaghiamo se gli sLM possano autoverificare in modo affidabile i propri output sotto il ridimensionamento del calcolo al momento del test. Scopriamo che, anche con la distillazione della conoscenza da verificatori più grandi, gli sLM faticano nei compiti di verifica che richiedono memorizzazione, come calcoli numerici e verifica dei fatti. Per affrontare questa limitazione, proponiamo l'autoverifica integrata con strumenti (T1), che delega i passaggi di verifica ad alta intensità di memorizzazione a strumenti esterni, come un interprete di codice. La nostra analisi teorica mostra che l'integrazione di strumenti riduce le richieste di memorizzazione e migliora le prestazioni del ridimensionamento del calcolo al momento del test. Esperimenti sul benchmark MATH dimostrano che, con T1, un modello Llama-3.2 1B sotto ridimensionamento del calcolo al momento del test supera il modello Llama-3.1 8B significativamente più grande. Inoltre, T1 si generalizza efficacemente sia a compiti matematici (MATH500) che a compiti intensivi di conoscenza multi-dominio (MMLU-Pro). I nostri risultati evidenziano il potenziale dell'integrazione di strumenti per migliorare sostanzialmente le capacità di autoverifica degli sLM.
English
Recent studies have demonstrated that test-time compute scaling effectively
improves the performance of small language models (sLMs). However, prior
research has mainly examined test-time compute scaling with an additional
larger model as a verifier, leaving self-verification by sLMs underexplored. In
this work, we investigate whether sLMs can reliably self-verify their outputs
under test-time scaling. We find that even with knowledge distillation from
larger verifiers, sLMs struggle with verification tasks requiring memorization,
such as numerical calculations and fact-checking. To address this limitation,
we propose Tool-integrated self-verification (T1), which delegates
memorization-heavy verification steps to external tools, such as a code
interpreter. Our theoretical analysis shows that tool integration reduces
memorization demands and improves test-time scaling performance. Experiments on
the MATH benchmark demonstrate that, with T1, a Llama-3.2 1B model under
test-time scaling outperforms the significantly larger Llama-3.1 8B model.
Moreover, T1 generalizes effectively to both mathematical (MATH500) and
multi-domain knowledge-intensive tasks (MMLU-Pro). Our findings highlight the
potential of tool integration to substantially improve the self-verification
abilities of sLMs.Summary
AI-Generated Summary