Himmelsarbeit-Belohnung: Trickkiste für die Belohnungsmodellierung in LLMs
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
October 24, 2024
Autoren: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
cs.AI
Zusammenfassung
In diesem Bericht stellen wir eine Sammlung von Methoden zur Verbesserung der Belohnungsmodellierung für LLMs vor, wobei wir uns speziell auf datenzentrierte Techniken konzentrieren. Wir schlagen effektive Strategien zur Datenauswahl und -filterung zur Kuratierung hochwertiger Open-Source-Präferenzdatensätze vor, die in der Skywork-Reward-Datensammlung gipfeln, die nur 80K Präferenzpaare enthält - signifikant kleiner als bestehende Datensätze. Unter Verwendung dieses kuratierten Datensatzes haben wir die Skywork-Reward-Modellreihe entwickelt - Skywork-Reward-Gemma-27B und Skywork-Reward-Llama-3.1-8B - wobei erstere derzeit die Spitzenposition auf der RewardBench-Rangliste einnimmt. Bemerkenswert ist, dass unsere Techniken und Datensätze die Leistung vieler erstklassiger Modelle auf RewardBench direkt verbessert haben, was die praktische Auswirkung unserer Beiträge in Anwendungen des realen Präferenzlernens hervorhebt.
English
In this report, we introduce a collection of methods to enhance reward
modeling for LLMs, focusing specifically on data-centric techniques. We propose
effective data selection and filtering strategies for curating high-quality
open-source preference datasets, culminating in the Skywork-Reward data
collection, which contains only 80K preference pairs -- significantly smaller
than existing datasets. Using this curated dataset, we developed the
Skywork-Reward model series -- Skywork-Reward-Gemma-27B and
Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top
position on the RewardBench leaderboard. Notably, our techniques and datasets
have directly enhanced the performance of many top-ranked models on
RewardBench, highlighting the practical impact of our contributions in
real-world preference learning applications.Summary
AI-Generated Summary