Rumo a Modelos de Raciocínio Amplos: Uma Pesquisa sobre Raciocínio Reforçado com Grandes Modelos de Linguagem
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
January 16, 2025
Autores: Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
cs.AI
Resumo
A linguagem tem sido concebida como uma ferramenta essencial para o raciocínio humano. A ascensão dos Modelos de Linguagem de Grande Escala (LLMs) despertou um interesse significativo na pesquisa sobre como aproveitar esses modelos para lidar com tarefas complexas de raciocínio. Os pesquisadores avançaram além da simples geração autoregressiva de tokens, introduzindo o conceito de "pensamento" - uma sequência de tokens que representam etapas intermediárias no processo de raciocínio. Esse paradigma inovador permite que os LLMs imitem processos complexos de raciocínio humano, como busca em árvore e pensamento reflexivo. Recentemente, uma tendência emergente de aprendizado para raciocinar tem aplicado o aprendizado por reforço (RL) para treinar LLMs a dominar processos de raciocínio. Essa abordagem possibilita a geração automática de trajetórias de raciocínio de alta qualidade por meio de algoritmos de busca por tentativa e erro, expandindo significativamente a capacidade de raciocínio dos LLMs ao fornecer substancialmente mais dados de treinamento. Além disso, estudos recentes demonstram que incentivar os LLMs a "pensar" com mais tokens durante a inferência no momento do teste pode aumentar significativamente a precisão do raciocínio. Portanto, a combinação de escalonamento no treinamento e no teste mostra uma nova fronteira de pesquisa - um caminho em direção ao Modelo de Raciocínio de Grande Escala. A introdução da série o1 da OpenAI marca um marco significativo nessa direção de pesquisa. Nesta pesquisa, apresentamos uma revisão abrangente dos avanços recentes no raciocínio dos LLMs. Começamos introduzindo o contexto fundamental dos LLMs e depois exploramos os principais componentes técnicos que impulsionam o desenvolvimento de modelos de raciocínio grandes, com foco na construção automatizada de dados, técnicas de aprendizado para raciocinar e escalonamento no momento do teste. Também analisamos projetos de código aberto populares na construção de modelos de raciocínio grandes e concluímos com desafios em aberto e direções futuras de pesquisa.
English
Language has long been conceived as an essential tool for human reasoning.
The breakthrough of Large Language Models (LLMs) has sparked significant
research interest in leveraging these models to tackle complex reasoning tasks.
Researchers have moved beyond simple autoregressive token generation by
introducing the concept of "thought" -- a sequence of tokens representing
intermediate steps in the reasoning process. This innovative paradigm enables
LLMs' to mimic complex human reasoning processes, such as tree search and
reflective thinking. Recently, an emerging trend of learning to reason has
applied reinforcement learning (RL) to train LLMs to master reasoning
processes. This approach enables the automatic generation of high-quality
reasoning trajectories through trial-and-error search algorithms, significantly
expanding LLMs' reasoning capacity by providing substantially more training
data. Furthermore, recent studies demonstrate that encouraging LLMs to "think"
with more tokens during test-time inference can further significantly boost
reasoning accuracy. Therefore, the train-time and test-time scaling combined to
show a new research frontier -- a path toward Large Reasoning Model. The
introduction of OpenAI's o1 series marks a significant milestone in this
research direction. In this survey, we present a comprehensive review of recent
progress in LLM reasoning. We begin by introducing the foundational background
of LLMs and then explore the key technical components driving the development
of large reasoning models, with a focus on automated data construction,
learning-to-reason techniques, and test-time scaling. We also analyze popular
open-source projects at building large reasoning models, and conclude with open
challenges and future research directions.Summary
AI-Generated Summary