샘플링, 검토 및 확장: 확장을 통한 효과적인 추론 시간 검색
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
저자: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
초록
샘플링 기반 검색은 테스트 시간 계산을 활용하는 간단한 패러다임으로, 여러 후보 응답을 생성하고 최상의 응답을 선택하는 것을 포함합니다. 일반적으로는 각 응답을 정확성을 확인하여 선택합니다. 본 논문에서는 샘플링 기반 검색을 지배하는 확장 트렌드를 연구합니다. 우리의 연구 결과 중 하나는 무작위 샘플링과 직접 자가 확인만 사용하는 최소한의 구현을 확장하는 것만으로도, 예를 들어 Gemini v1.5 Pro 모델의 추론 능력을 인기 있는 벤치마크에서 o1-Preview를 넘어서는 지속적인 성능 향상이 가능하다는 것입니다. 우리는 샘플링 기반 검색의 확장성을 응답 풀을 더 크게 샘플링함으로써 검증 정확도를 향상시키는 암묵적 확장 현상과 관련시킵니다. 또한 테스트 시간 계산을 통해 자가 확인 능력을 향상시키기 위한 두 가지 유용한 원칙을 확인합니다: (1) 응답 간 비교는 오류와 환각의 위치에 대한 유용한 신호를 제공하며, (2) 서로 다른 모델 출력 스타일은 다른 맥락에서 유용합니다. 추론을 위해 사고 체인은 유용하지만 확인하기 어렵습니다. 정확한 확인이 가능하다 하더라도, 프론티어 모델은 상자 밖의 확인 능력이 놀랍도록 약하며, 이러한 결함에 대한 진전을 측정하기 위한 벤치마크를 도입합니다.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary