Modelli Linguistici ad Auto-Guidaggio
Self-Steering Language Models
April 9, 2025
Autori: Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas
cs.AI
Abstract
Mentre il ragionamento al momento del test consente ai modelli linguistici di affrontare compiti complessi, la ricerca o la pianificazione in linguaggio naturale può essere lenta, costosa e soggetta a errori. Tuttavia, anche quando i modelli linguistici faticano a emulare i passaggi di ragionamento precisi necessari per risolvere un problema, spesso eccellono nel descriverne la struttura astratta—sia su come verificare le soluzioni che su come cercarle. Questo articolo introduce DisCIPL, un metodo per l'"autogestione" dei modelli linguistici in cui un modello Pianificatore genera un programma di inferenza specifico per il compito che viene eseguito da una popolazione di modelli Follower. Il nostro approccio fornisce ai modelli linguistici la capacità di scrivere procedure di ricerca ricorsive che guidano l'inferenza del modello, abilitando nuove forme di ragionamento verificabile ed efficiente. Quando istanziato con un Follower di piccole dimensioni (ad esempio, Llama-3.2-1B), DisCIPL eguaglia (e talvolta supera) modelli molto più grandi, inclusi GPT-4o e o1, in compiti di generazione vincolata impegnativi. Nel separare la pianificazione dall'esecuzione, il nostro lavoro apre uno spazio di progettazione per strategie di inferenza Monte Carlo altamente parallelizzate che superano il campionamento standard best-of-N, non richiedono fine-tuning e possono essere implementate automaticamente dai modelli linguistici esistenti.
English
While test-time reasoning enables language models to tackle complex tasks,
searching or planning in natural language can be slow, costly, and error-prone.
But even when LMs struggle to emulate the precise reasoning steps needed to
solve a problem, they often excel at describing its abstract structure--both
how to verify solutions and how to search for them. This paper introduces
DisCIPL, a method for "self-steering" LMs where a Planner model generates a
task-specific inference program that is executed by a population of Follower
models. Our approach equips LMs with the ability to write recursive search
procedures that guide LM inference, enabling new forms of verifiable and
efficient reasoning. When instantiated with a small Follower (e.g.,
Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models,
including GPT-4o and o1, on challenging constrained generation tasks. In
decoupling planning from execution, our work opens up a design space of
highly-parallelized Monte Carlo inference strategies that outperform standard
best-of-N sampling, require no finetuning, and can be implemented automatically
by existing LMs.Summary
AI-Generated Summary