ChatPaper.aiChatPaper

Scalabilità al Tempo di Inferenza per Compiti Complessi: Stato Attuale e Prospettive Future

Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

March 31, 2025
Autori: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI

Abstract

Il ridimensionamento al momento dell'inferenza può potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) su problemi complessi che beneficiano di una risoluzione passo-passo. Sebbene l'allungamento dei fogli di lavoro generati si sia dimostrato efficace per compiti matematici, l'impatto più ampio di questo approccio su altri compiti rimane meno chiaro. In questo lavoro, indaghiamo i vantaggi e i limiti dei metodi di ridimensionamento su nove modelli all'avanguardia e otto compiti impegnativi, tra cui ragionamento matematico e STEM, pianificazione del calendario, problemi NP-difficili, navigazione e ragionamento spaziale. Confrontiamo modelli convenzionali (ad esempio, GPT-4o) con modelli ottimizzati per il ridimensionamento al momento dell'inferenza (ad esempio, o1) attraverso protocolli di valutazione che prevedono chiamate ripetute al modello, in modo indipendente o sequenziale con feedback. Queste valutazioni approssimano i limiti inferiori e superiori delle prestazioni e il potenziale di miglioramento futuro per ciascun modello, sia attraverso un addestramento migliorato che sistemi di inferenza multi-modello. La nostra ampia analisi empirica rivela che i vantaggi del ridimensionamento al momento dell'inferenza variano a seconda del compito e diminuiscono all'aumentare della complessità del problema. Inoltre, l'uso di più token non si traduce necessariamente in una maggiore accuratezza in questi regimi impegnativi. I risultati di più esecuzioni indipendenti con modelli convenzionali che utilizzano verificatori perfetti mostrano che, per alcuni compiti, questi modelli possono raggiungere prestazioni vicine alla media delle prestazioni dei modelli di ragionamento più avanzati di oggi. Tuttavia, per altri compiti, rimane un divario significativo nelle prestazioni, anche in regimi di ridimensionamento molto elevati. Incoraggiante è il fatto che tutti i modelli mostrano guadagni significativi quando l'inferenza viene ulteriormente ridimensionata con verificatori perfetti o feedback forte, suggerendo un ampio potenziale per miglioramenti futuri.
English
Inference-time scaling can enhance the reasoning capabilities of large language models (LLMs) on complex problems that benefit from step-by-step problem solving. Although lengthening generated scratchpads has proven effective for mathematical tasks, the broader impact of this approach on other tasks remains less clear. In this work, we investigate the benefits and limitations of scaling methods across nine state-of-the-art models and eight challenging tasks, including math and STEM reasoning, calendar planning, NP-hard problems, navigation, and spatial reasoning. We compare conventional models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g., o1) through evaluation protocols that involve repeated model calls, either independently or sequentially with feedback. These evaluations approximate lower and upper performance bounds and potential for future performance improvements for each model, whether through enhanced training or multi-model inference systems. Our extensive empirical analysis reveals that the advantages of inference-time scaling vary across tasks and diminish as problem complexity increases. In addition, simply using more tokens does not necessarily translate to higher accuracy in these challenging regimes. Results from multiple independent runs with conventional models using perfect verifiers show that, for some tasks, these models can achieve performance close to the average performance of today's most advanced reasoning models. However, for other tasks, a significant performance gap remains, even in very high scaling regimes. Encouragingly, all models demonstrate significant gains when inference is further scaled with perfect verifiers or strong feedback, suggesting ample potential for future improvements.

Summary

AI-Generated Summary

PDF102April 2, 2025