Pre-DPO: Verbetering van Datagebruik in Direct Preference Optimization Met behulp van een Begeleidend Referentiemodel
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
April 22, 2025
Auteurs: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI
Samenvatting
Direct Preference Optimization (DPO) vereenvoudigt reinforcement learning vanuit menselijke feedback (RLHF) voor grote taalmmodellen (LLMs) door menselijke voorkeuren direct te optimaliseren zonder een expliciet beloningsmodel. We ontdekken dat tijdens DPO-training het referentiemodel fungeert als een aanpasser van data-gewichten. Echter, de gangbare praktijk om het beleidsmodel en het referentiemodel identiek te initialiseren in DPO kan leiden tot inefficiënt data-gebruik en een plafond opleggen aan de prestaties. Tegelijkertijd vermindert het ontbreken van een referentiemodel in Simple Preference Optimization (SimPO) de robuustheid van de training en vereist het strengere voorwaarden om catastrofaal vergeten te voorkomen. In dit werk stellen we Pre-DPO voor, een eenvoudig maar effectief op DPO gebaseerd trainingsparadigma dat de prestaties van voorkeursoptimalisatie verbetert door gebruik te maken van een begeleidend referentiemodel. Dit referentiemodel biedt inzicht in de optimale beleidsstatus die bereikbaar is via de trainingsvoorkeursdata, en fungeert als een begeleidingsmechanisme dat adaptief hogere gewichten toekent aan samples die beter geschikt zijn voor het model en lagere gewichten aan minder geschikte samples. Uitgebreide experimenten op de AlpacaEval 2.0 en Arena-Hard v0.1 benchmarks tonen aan dat Pre-DPO consistent de prestaties van zowel DPO als SimPO verbetert, zonder afhankelijk te zijn van externe modellen of aanvullende data.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from
human feedback (RLHF) for large language models (LLMs) by directly optimizing
human preferences without an explicit reward model. We find that during DPO
training, the reference model plays the role of a data weight adjuster.
However, the common practice of initializing the policy and reference models
identically in DPO can lead to inefficient data utilization and impose a
performance ceiling. Meanwhile, the lack of a reference model in Simple
Preference Optimization (SimPO) reduces training robustness and necessitates
stricter conditions to prevent catastrophic forgetting. In this work, we
propose Pre-DPO, a simple yet effective DPO-based training paradigm that
enhances preference optimization performance by leveraging a guiding reference
model. This reference model provides foresight into the optimal policy state
achievable through the training preference data, serving as a guiding mechanism
that adaptively assigns higher weights to samples more suitable for the model
and lower weights to those less suitable. Extensive experiments on AlpacaEval
2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently
improves the performance of both DPO and SimPO, without relying on external
models or additional data.Summary
AI-Generated Summary