ChatPaper.aiChatPaper

쌍별 RM: Knockout 토너먼트를 활용한 Best-of-N 샘플링 수행

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

January 22, 2025
저자: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li
cs.AI

초록

대규모 언어 모델 (LLM)의 테스트 시 스케일링을 위한 일반적인 전략 인 Best-of-N (BoN) 샘플링은 보상 모델에 의존하여 여러 세대에서 최적의 후보 솔루션을 선택합니다. 그러나 기존의 보상 모델은 종종 임의적이고 일관성 없는 점수를 할당하여 효과를 제한합니다. 이를 해결하기 위해 우리는 BoN 샘플링을 위한 Pairwise Reward Model (Pairwise RM)을 제안하며, 이는 노크아웃 토너먼트와 결합됩니다. Pairwise RM은 절대적인 점수를 할당하는 대신, 하나의 수학 문제에 대해 두 후보 솔루션의 정확성을 동시에 평가합니다. 이 접근 방식은 임의의 점수 매기기를 필요로하지 않게 하며, 솔루션의 상호 비교를 통해 교차 유효성 검사를 가능하게 합니다. 노크아웃 토너먼트에서 Pairwise RM은 후보 솔루션 간의 쌍별 비교를 수행하고 반복적으로 잘못된 것을 제거합니다. 우리는 NumiaMath에서 유도된 443K 쌍별 비교로 구성된 대규모 데이터 세트인 \ourdataset을 구축하고 gemini-1.5-flash를 사용하여 주석을 달았으며, Pairwise RM을 지도된 세밀 조정을 통해 훈련시켰습니다. MATH-500 및 올림피아드 벤치에서의 실험 결과는 기존의 판별적 보상 모델보다 상당한 개선을 보여주었습니다. 상위 50% 어려운 문제에서 40%에서 60%의 상대적 개선이 달성되었습니다.
English
Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Reward Model (Pairwise RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, Pairwise RM evaluates two candidate solutions' correctness simultaneously. This approach eliminates the need for arbitrary scoring and enables cross-validation of solutions through parallel comparison. In the knockout tournament, Pairwise RM conducts pairwise comparisons between candidate solutions and eliminates the incorrect ones iteratively. We construct \ourdataset, a large-scale dataset of 443K pairwise comparisons derived from NumiaMath and annotated using gemini-1.5-flash, and train the Pairwise RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over traditional discriminative reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.

Summary

AI-Generated Summary

PDF203January 23, 2025