Pairwise RM: Voer Best-of-N Sampling uit met Knockout Toernooi.

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

January 22, 2025
Auteurs: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li
cs.AI

Samenvatting

Best-of-N (BoN) sampling, een veelgebruikte strategie voor schaalvergroting van Grote Taalmodellen (LLMs) op testtijd, vertrouwt op beloningsmodellen om de beste kandidaatoplossing uit meerdere generaties te selecteren. Traditionele beloningsmodellen kennen echter vaak willekeurige en inconsistente scores toe, waardoor hun effectiviteit beperkt is. Om dit aan te pakken, stellen we een Pairwise Reward Model (Pairwise RM) voor dat gecombineerd wordt met een knock-outtoernooi voor BoN-sampling. In plaats van absolute scores toe te kennen, evalueert Pairwise RM, gegeven een wiskundig probleem, gelijktijdig de juistheid van twee kandidaatoplossingen. Deze benadering elimineert de noodzaak voor willekeurige scoring en maakt validatie van oplossingen mogelijk door middel van parallelle vergelijking. In het knock-outtoernooi voert Pairwise RM pairwise vergelijkingen uit tussen kandidaatoplossingen en elimineert deze iteratief de onjuiste. We construeren \ourdataset, een grootschalige dataset van 443K pairwise vergelijkingen afgeleid van NumiaMath en geannoteerd met gemini-1.5-flash, en trainen de Pairwise RM via begeleid finetunen. Experimenten op MATH-500 en de Olympiad Bench tonen aanzienlijke verbeteringen aan ten opzichte van traditionele discriminerende beloningsmodellen. En er wordt een relatieve verbetering van 40\% tot 60\% bereikt op de meest uitdagende 50\% van de problemen.
English
Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Reward Model (Pairwise RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, Pairwise RM evaluates two candidate solutions' correctness simultaneously. This approach eliminates the need for arbitrary scoring and enables cross-validation of solutions through parallel comparison. In the knockout tournament, Pairwise RM conducts pairwise comparisons between candidate solutions and eliminates the incorrect ones iteratively. We construct \ourdataset, a large-scale dataset of 443K pairwise comparisons derived from NumiaMath and annotated using gemini-1.5-flash, and train the Pairwise RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over traditional discriminative reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.

Summary

AI-Generated Summary

PDF183January 23, 2025