Modelli Linguistici ad Auto-Guidaggio

Abstract

Mentre il ragionamento al momento del test consente ai modelli linguistici di affrontare compiti complessi, la ricerca o la pianificazione in linguaggio naturale può essere lenta, costosa e soggetta a errori. Tuttavia, anche quando i modelli linguistici faticano a emulare i passaggi di ragionamento precisi necessari per risolvere un problema, spesso eccellono nel descriverne la struttura astratta—sia su come verificare le soluzioni che su come cercarle. Questo articolo introduce DisCIPL, un metodo per l'"autogestione" dei modelli linguistici in cui un modello Pianificatore genera un programma di inferenza specifico per il compito che viene eseguito da una popolazione di modelli Follower. Il nostro approccio fornisce ai modelli linguistici la capacità di scrivere procedure di ricerca ricorsive che guidano l'inferenza del modello, abilitando nuove forme di ragionamento verificabile ed efficiente. Quando istanziato con un Follower di piccole dimensioni (ad esempio, Llama-3.2-1B), DisCIPL eguaglia (e talvolta supera) modelli molto più grandi, inclusi GPT-4o e o1, in compiti di generazione vincolata impegnativi. Nel separare la pianificazione dall'esecuzione, il nostro lavoro apre uno spazio di progettazione per strategie di inferenza Monte Carlo altamente parallelizzate che superano il campionamento standard best-of-N, non richiedono fine-tuning e possono essere implementate automaticamente dai modelli linguistici esistenti.

English

While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure--both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for "self-steering" LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.

Modelli Linguistici ad Auto-Guidaggio

Self-Steering Language Models

Abstract

Summary

Support

Support