Pre-DPO: Verbesserung der Datennutzung in der direkten Präferenzoptimierung durch ein leitendes Referenzmodell
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
April 22, 2025
Autoren: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI
Zusammenfassung
Direct Preference Optimization (DPO) vereinfacht das Reinforcement Learning aus menschlichem Feedback (RLHF) für große Sprachmodelle (LLMs), indem es menschliche Präferenzen direkt optimiert, ohne ein explizites Belohnungsmodell zu verwenden. Wir stellen fest, dass das Referenzmodell während des DPO-Trainings die Rolle eines Datengewichtsanpassers einnimmt. Die gängige Praxis, das Policy-Modell und das Referenzmodell in DPO identisch zu initialisieren, kann jedoch zu ineffizienter Datennutzung führen und eine Leistungsgrenze auferlegen. Gleichzeitig reduziert das Fehlen eines Referenzmodells in Simple Preference Optimization (SimPO) die Robustheit des Trainings und erfordert strengere Bedingungen, um katastrophales Vergessen zu verhindern. In dieser Arbeit schlagen wir Pre-DPO vor, ein einfaches, aber effektives, auf DPO basierendes Trainingsparadigma, das die Leistung der Präferenzoptimierung verbessert, indem es ein leitendes Referenzmodell nutzt. Dieses Referenzmodell bietet einen Einblick in den optimalen Policy-Zustand, der durch die Trainingspräferenzdaten erreicht werden kann, und dient als Leitmechanismus, der adaptiv höhere Gewichte für für das Modell geeignetere Proben und niedrigere Gewichte für weniger geeignete Proben zuweist. Umfangreiche Experimente auf den Benchmarks AlpacaEval 2.0 und Arena-Hard v0.1 zeigen, dass Pre-DPO die Leistung von sowohl DPO als auch SimPO konsequent verbessert, ohne auf externe Modelle oder zusätzliche Daten angewiesen zu sein.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from
human feedback (RLHF) for large language models (LLMs) by directly optimizing
human preferences without an explicit reward model. We find that during DPO
training, the reference model plays the role of a data weight adjuster.
However, the common practice of initializing the policy and reference models
identically in DPO can lead to inefficient data utilization and impose a
performance ceiling. Meanwhile, the lack of a reference model in Simple
Preference Optimization (SimPO) reduces training robustness and necessitates
stricter conditions to prevent catastrophic forgetting. In this work, we
propose Pre-DPO, a simple yet effective DPO-based training paradigm that
enhances preference optimization performance by leveraging a guiding reference
model. This reference model provides foresight into the optimal policy state
achievable through the training preference data, serving as a guiding mechanism
that adaptively assigns higher weights to samples more suitable for the model
and lower weights to those less suitable. Extensive experiments on AlpacaEval
2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently
improves the performance of both DPO and SimPO, without relying on external
models or additional data.Summary
AI-Generated Summary