Skywork-Beloning: Zak met Trucs voor Beloningsmodellering in Taalmodelen met Lange-afstandsafhankelijkheden

Samenvatting

In dit rapport introduceren we een reeks methoden om beloningsmodellering voor LLMs te verbeteren, met een specifieke focus op data-centrische technieken. We stellen effectieve strategieën voor data-selectie en -filtering voor om hoogwaardige open-source voorkeursdatasets te cureren, resulterend in de Skywork-Reward dataset, die slechts 80K voorkeursparen bevat - aanzienlijk kleiner dan bestaande datasets. Met behulp van deze samengestelde dataset hebben we de Skywork-Reward modelserie ontwikkeld - Skywork-Reward-Gemma-27B en Skywork-Reward-Llama-3.1-8B - waarbij de eerste momenteel de toppositie inneemt op de RewardBench-leiderbord. Opmerkelijk is dat onze technieken en datasets rechtstreeks de prestaties van veel topgerangschikte modellen op RewardBench hebben verbeterd, waarbij de praktische impact van onze bijdragen in real-world voorkeursleer-toepassingen wordt benadrukt.

English

In this report, we introduce a collection of methods to enhance reward modeling for LLMs, focusing specifically on data-centric techniques. We propose effective data selection and filtering strategies for curating high-quality open-source preference datasets, culminating in the Skywork-Reward data collection, which contains only 80K preference pairs -- significantly smaller than existing datasets. Using this curated dataset, we developed the Skywork-Reward model series -- Skywork-Reward-Gemma-27B and Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top position on the RewardBench leaderboard. Notably, our techniques and datasets have directly enhanced the performance of many top-ranked models on RewardBench, highlighting the practical impact of our contributions in real-world preference learning applications.

Skywork-Beloning: Zak met Trucs voor Beloningsmodellering in Taalmodelen met Lange-afstandsafhankelijkheden

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

Samenvatting

Support