LLM의 추론 시간 스케일링을 위한 확률적 추론 접근 입자 기반 몬테카를로 방법 사용
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
저자: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
초록
대형 언어 모델(Large language models, LLMs)은 모델 크기 및/또는 데이터 확장을 통해 상당한 성능 향상을 이룩했습니다. 그러나 최근의 증거는 이러한 방법들로부터의 한계가 있음을 시사하며, 추론 시 소비되는 계산을 확장하는 것을 동기로 합니다. 기존의 추론 시 확장 방법은 일반적으로 보상 모델을 사용하여 작업을 탐색 문제로 캐스팅하며, 이는 보상 모델의 근사 오차로 인한 보상 해킹에 취약할 수 있습니다. 본 논문에서는 추론 시 확장을 확률적 추론 작업으로 캐스팅하고, 근사 우도를 가진 상태 공간 모델의 일반적인 집합을 탐색하기 위해 샘플링 기반 기술을 활용합니다. 우리는 입자 기반 몬테카를로 방법을 이 작업에 적응시킨 새로운 추론 시 확장 접근 방식을 제안합니다. 우리의 경험적 평가는 우리의 방법이 다양한 어려운 수학적 추론 작업에서 우리의 결정론적 탐색 대조군에 비해 4-16배 더 나은 확장 속도를 갖는 것을 보여줍니다. 우리의 방법을 사용하여, Qwen2.5-Math-1.5B-Instruct는 4회 롤아웃만으로 GPT-4o 정확도를 능가할 수 있으며, Qwen2.5-Math-7B-Instruct는 32회 롤아웃만으로 o1 수준의 정확도에 도달할 수 있습니다. 우리의 연구는 추론 시 확장에 대한 효과적인 방법을 제시할 뿐만 아니라, 확률적 추론의 풍부한 문헌과 LLMs의 추론 시 확장을 연결하여 미래 작업에서 더 견고한 알고리즘을 개발하는 데 기여합니다. 코드 및 추가 정보는 https://probabilistic-inference-scaling.github.io에서 확인할 수 있습니다.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary