ChatPaper.aiChatPaper

대규모 추론 모델을 향하여: 대규모 언어 모델을 이용한 강화된 추론에 대한 조사

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

January 16, 2025
저자: Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
cs.AI

초록

언어는 오랫동안 인간 추론에 필수적인 도구로 여겨져 왔습니다. 대형 언어 모델(LLMs)의 돌파는 이러한 모델을 활용하여 복잡한 추론 작업에 대처하기 위한 중요한 연구 관심을 불러일으켰습니다. 연구자들은 "생각"이라는 개념을 도입함으로써 단순한 자기회귀 토큰 생성을 넘어서 추론 과정의 중간 단계를 나타내는 토큰 시퀀스를 도입했습니다. 이 혁신적인 패러다임은 LLMs가 나무 탐색과 반성적 사고와 같은 복잡한 인간 추론 과정을 모방할 수 있게 합니다. 최근에는 추론 학습에 대한 신흥 트렌드가 나타나며 강화 학습(RL)을 활용하여 LLMs를 추론 과정을 숙달시키도록 훈련시키고 있습니다. 이 접근 방식은 시행착오 검색 알고리즘을 통해 고품질 추론 경로를 자동으로 생성함으로써 LLMs의 추론 능력을 크게 확장시키고 훈련 데이터를 상당히 더 제공합니다. 더 나아가 최근 연구에서는 시험 시 추론 중 LLMs에게 더 많은 토큰을 사용하여 "생각"하도록 장려함으로써 추론 정확도를 크게 향상시킬 수 있다는 것을 입증하고 있습니다. 따라서 훈련 시간과 시험 시간의 확장이 결합되어 대규모 추론 모델로 향하는 새로운 연구 분야를 보여주고 있습니다. OpenAI의 o1 시리즈의 도입은 이 연구 방향에서 중요한 이정표를 세우고 있습니다. 본 조사에서는 LLM 추론의 최근 진전에 대한 포괄적인 검토를 제시합니다. 먼저 LLMs의 기초적 배경을 소개하고, 그 후 자동 데이터 구축, 추론 학습 기술, 시험 시간 확장을 주요 기술 구성 요소로 탐구하며 대규모 추론 모델의 발전을 주도하는 요소를 살펴봅니다. 또한 대규모 추론 모델을 구축하는 인기 있는 오픈 소스 프로젝트를 분석하고, 미래 연구 방향과 열린 도전 과제로 마무리합니다.
English
Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of "thought" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has applied reinforcement learning (RL) to train LLMs to master reasoning processes. This approach enables the automatic generation of high-quality reasoning trajectories through trial-and-error search algorithms, significantly expanding LLMs' reasoning capacity by providing substantially more training data. Furthermore, recent studies demonstrate that encouraging LLMs to "think" with more tokens during test-time inference can further significantly boost reasoning accuracy. Therefore, the train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction. In this survey, we present a comprehensive review of recent progress in LLM reasoning. We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling. We also analyze popular open-source projects at building large reasoning models, and conclude with open challenges and future research directions.

Summary

AI-Generated Summary

PDF372January 17, 2025