ChatPaper.aiChatPaper

Pre-DPO: Verbesserung der Datennutzung in der direkten Präferenzoptimierung durch ein leitendes Referenzmodell

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

April 22, 2025
Autoren: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI

Zusammenfassung

Direct Preference Optimization (DPO) vereinfacht das Reinforcement Learning aus menschlichem Feedback (RLHF) für große Sprachmodelle (LLMs), indem es menschliche Präferenzen direkt optimiert, ohne ein explizites Belohnungsmodell zu verwenden. Wir stellen fest, dass das Referenzmodell während des DPO-Trainings die Rolle eines Datengewichtsanpassers einnimmt. Die gängige Praxis, das Policy-Modell und das Referenzmodell in DPO identisch zu initialisieren, kann jedoch zu ineffizienter Datennutzung führen und eine Leistungsgrenze auferlegen. Gleichzeitig reduziert das Fehlen eines Referenzmodells in Simple Preference Optimization (SimPO) die Robustheit des Trainings und erfordert strengere Bedingungen, um katastrophales Vergessen zu verhindern. In dieser Arbeit schlagen wir Pre-DPO vor, ein einfaches, aber effektives, auf DPO basierendes Trainingsparadigma, das die Leistung der Präferenzoptimierung verbessert, indem es ein leitendes Referenzmodell nutzt. Dieses Referenzmodell bietet einen Einblick in den optimalen Policy-Zustand, der durch die Trainingspräferenzdaten erreicht werden kann, und dient als Leitmechanismus, der adaptiv höhere Gewichte für für das Modell geeignetere Proben und niedrigere Gewichte für weniger geeignete Proben zuweist. Umfangreiche Experimente auf den Benchmarks AlpacaEval 2.0 und Arena-Hard v0.1 zeigen, dass Pre-DPO die Leistung von sowohl DPO als auch SimPO konsequent verbessert, ohne auf externe Modelle oder zusätzliche Daten angewiesen zu sein.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

Summary

AI-Generated Summary

PDF182April 24, 2025