Controllo Efficace dei Modelli di Ragionamento attraverso l'Intervento sul Pensiero
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Autori: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) potenziati per il ragionamento generano esplicitamente passaggi intermedi di ragionamento prima di produrre risposte finali, aiutando il modello a eccellere nella risoluzione di problemi complessi. In questo articolo, dimostriamo che questo quadro generativo emergente offre un'opportunità unica per un controllo più granulare sul comportamento del modello. Proponiamo l'Intervento di Pensiero, un paradigma innovativo progettato per guidare esplicitamente i processi di ragionamento interni degli LLM inserendo o revisionando strategicamente specifici token di pensiero. Conduciamo valutazioni approfondite su più task, tra cui il seguire istruzioni su IFEval, la gerarchia delle istruzioni su SEP e l'allineamento alla sicurezza su XSTest e SORRY-Bench. I nostri risultati dimostrano che l'Intervento di Pensiero supera significativamente gli approcci di prompting di base, ottenendo miglioramenti fino al 6,7% in termini di accuratezza negli scenari di seguire istruzioni, un aumento del 15,4% nel ragionamento sulle gerarchie di istruzioni e un incremento del 40,0% nei tassi di rifiuto per prompt non sicuri utilizzando i modelli open-source DeepSeek R1. Nel complesso, il nostro lavoro apre una nuova e promettente direzione di ricerca per il controllo dei LLM potenziati per il ragionamento.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary