대형 언어 모델의 테스트 시간 계산에 대한 간단하고 입증 가능한 스케일링 법칙
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
November 29, 2024
저자: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
초록
우리는 대규모 언어 모델 (LLM)의 테스트 시간 계산에 대한 증명 가능한 스케일링 법칙을 즐기는 일반적인 두 단계 알고리즘을 제안합니다. 주어진 입력 문제에 대해 제안된 알고리즘은 먼저 N개의 후보 솔루션을 생성하고, 그런 다음 각 후보 쌍이 K번 비교되고 승자만이 다음 라운드로 진출하는 다중 라운드 탈락 토너먼트를 통해 최상의 솔루션을 선택합니다. 최소한의 구현에서 두 단계 모두 블랙박스 LLM만 사용하여 실행될 수 있으며 다른 것은 필요하지 않습니다 (예: 외부 확인자나 보상 모델 없음) 입력 문제를 해결하기 위해 (K + 1) 배의 병렬 처리 가능한 LLM 호출이 필요합니다. 생성된 후보 솔루션이 확률 p_{gen} > 0로 올바르다고 가정하고 올바른 솔루션과 부정확한 솔루션 간의 비교가 p_{comp} > 0.5의 확률로 올바른 승자를 식별한다고 가정할 때 (즉, 무작위 추측보다 나은 경우), 제안된 알고리즘의 실패 확률이 N 및 K에 대해 지수적으로 감소함을 이론적으로 증명합니다: $P(최종 출력이 잘못됨) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ 우리의 어려운 MMLU-Pro 벤치마크와의 경험적 결과는 기술적 가정과 제안된 알고리즘의 효과성, 그리고 테스트 시간 계산의 확장으로부터 얻는 이익을 검증합니다.
English
We propose a general two-stage algorithm that enjoys a provable scaling law
for the test-time compute of large language models (LLMs). Given an input
problem, the proposed algorithm first generates N candidate solutions, and
then chooses the best one via a multiple-round knockout tournament where each
pair of candidates are compared for K times and only the winners move on to
the next round. In a minimalistic implementation, both stages can be executed
with a black-box LLM alone and nothing else (e.g., no external verifier or
reward model), and a total of N times (K + 1) highly parallelizable LLM
calls are needed for solving an input problem. Assuming that a generated
candidate solution is correct with probability p_{gen} > 0 and a
comparison between a pair of correct and incorrect solutions identifies the
right winner with probability p_{comp} > 0.5 (i.e., better than a
random guess), we prove theoretically that the failure probability of the
proposed algorithm decays to zero exponentially with respect to N and K:
$P(final output is incorrect) le (1 - p_{gen})^N +
lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical
results with the challenging MMLU-Pro benchmark validate the technical
assumptions, as well as the efficacy of the proposed algorithm and the gains
from scaling up its test-time compute.Summary
AI-Generated Summary