Verso Modelli di Ragionamento Estesi: Un'Indagine sul Ragionamento Rinforzato con Grandi Modelli Linguistici
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
January 16, 2025
Autori: Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
cs.AI
Abstract
Il linguaggio è da lungo tempo considerato uno strumento essenziale per il ragionamento umano. La svolta dei Grandi Modelli Linguistici (LLM) ha suscitato un notevole interesse nella ricerca per sfruttare questi modelli per affrontare compiti complessi di ragionamento. I ricercatori hanno superato la generazione semplice di token autoregressivi introducendo il concetto di "pensiero" - una sequenza di token che rappresentano passaggi intermedi nel processo di ragionamento. Questo paradigma innovativo consente ai LLM di imitare processi complessi di ragionamento umano, come la ricerca ad albero e il pensiero riflessivo. Recentemente, una tendenza emergente di apprendimento del ragionamento ha applicato il reinforcement learning (RL) per addestrare i LLM a padroneggiare i processi di ragionamento. Questo approccio consente la generazione automatica di traiettorie di ragionamento di alta qualità attraverso algoritmi di ricerca per tentativi ed errori, espandendo significativamente la capacità di ragionamento dei LLM fornendo dati di addestramento notevolmente più numerosi. Inoltre, recenti studi dimostrano che incoraggiare i LLM a "pensare" con più token durante l'inferenza al test può ulteriormente aumentare significativamente l'accuratezza del ragionamento. Pertanto, la combinazione di scalabilità durante l'addestramento e il test mostra una nuova frontiera della ricerca - un percorso verso un Grande Modello di Ragionamento. L'introduzione della serie o1 di OpenAI segna una pietra miliare significativa in questa direzione di ricerca. In questa panoramica, presentiamo una revisione completa dei recenti progressi nel ragionamento dei LLM. Iniziamo introducendo il contesto fondamentale dei LLM e poi esploriamo i componenti tecnici chiave che guidano lo sviluppo dei grandi modelli di ragionamento, con un focus sulla costruzione automatica dei dati, sulle tecniche di apprendimento del ragionamento e sulla scalabilità al test. Analizziamo anche progetti open-source popolari per la costruzione di grandi modelli di ragionamento e concludiamo con le sfide aperte e le future direzioni di ricerca.
English
Language has long been conceived as an essential tool for human reasoning.
The breakthrough of Large Language Models (LLMs) has sparked significant
research interest in leveraging these models to tackle complex reasoning tasks.
Researchers have moved beyond simple autoregressive token generation by
introducing the concept of "thought" -- a sequence of tokens representing
intermediate steps in the reasoning process. This innovative paradigm enables
LLMs' to mimic complex human reasoning processes, such as tree search and
reflective thinking. Recently, an emerging trend of learning to reason has
applied reinforcement learning (RL) to train LLMs to master reasoning
processes. This approach enables the automatic generation of high-quality
reasoning trajectories through trial-and-error search algorithms, significantly
expanding LLMs' reasoning capacity by providing substantially more training
data. Furthermore, recent studies demonstrate that encouraging LLMs to "think"
with more tokens during test-time inference can further significantly boost
reasoning accuracy. Therefore, the train-time and test-time scaling combined to
show a new research frontier -- a path toward Large Reasoning Model. The
introduction of OpenAI's o1 series marks a significant milestone in this
research direction. In this survey, we present a comprehensive review of recent
progress in LLM reasoning. We begin by introducing the foundational background
of LLMs and then explore the key technical components driving the development
of large reasoning models, with a focus on automated data construction,
learning-to-reason techniques, and test-time scaling. We also analyze popular
open-source projects at building large reasoning models, and conclude with open
challenges and future research directions.Summary
AI-Generated Summary