Skywork-Reward : Sac de techniques pour la modélisation des récompenses dans les LLM
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
October 24, 2024
Auteurs: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
cs.AI
Résumé
Dans ce rapport, nous présentons une série de méthodes visant à améliorer la modélisation des récompenses pour les LLM, en mettant l'accent particulièrement sur les techniques centrées sur les données. Nous proposons des stratégies efficaces de sélection et de filtrage des données pour la création de jeux de données de préférences open-source de haute qualité, aboutissant à la collection de données Skywork-Reward, qui ne contient que 80 000 paires de préférences - significativement plus petite que les jeux de données existants. En utilisant ce jeu de données sélectionné, nous avons développé la série de modèles Skywork-Reward - Skywork-Reward-Gemma-27B et Skywork-Reward-Llama-3.1-8B - le premier occupant actuellement la première position du classement RewardBench. Notamment, nos techniques et jeux de données ont directement amélioré les performances de nombreux modèles bien classés sur RewardBench, mettant en lumière l'impact pratique de nos contributions dans les applications réelles d'apprentissage des préférences.
English
In this report, we introduce a collection of methods to enhance reward
modeling for LLMs, focusing specifically on data-centric techniques. We propose
effective data selection and filtering strategies for curating high-quality
open-source preference datasets, culminating in the Skywork-Reward data
collection, which contains only 80K preference pairs -- significantly smaller
than existing datasets. Using this curated dataset, we developed the
Skywork-Reward model series -- Skywork-Reward-Gemma-27B and
Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top
position on the RewardBench leaderboard. Notably, our techniques and datasets
have directly enhanced the performance of many top-ranked models on
RewardBench, highlighting the practical impact of our contributions in
real-world preference learning applications.Summary
AI-Generated Summary