RePO: ReLU-basierte Präferenzoptimierung
RePO: ReLU-based Preference Optimization
March 10, 2025
Autoren: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
Zusammenfassung
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen ist entscheidend für den Einsatz in der realen Welt, doch bestehende Methoden wie RLHF stehen vor rechnerischen und Stabilitätsherausforderungen. Während DPO ein Offline-Paradigma mit einem einzigen Hyperparameter Beta etabliert, führen nachfolgende Methoden wie SimPO durch duale Parameter (Beta, Gamma) wieder Komplexität ein. Wir schlagen {ReLU-basierte Präferenzoptimierung (RePO)} vor, einen vereinfachten Algorithmus, der Beta durch zwei Fortschritte eliminiert: (1) Beibehaltung der referenzfreien Ränder von SimPO, aber Entfernung von Beta durch Gradientenanalyse, und (2) Einführung eines ReLU-basierten Max-Margin-Verlusts, der trivial Paare natürlich filtert. Theoretisch wird RePO als Grenzfall von SimPO (Beta gegen unendlich) charakterisiert, bei dem die logistische Gewichtung zu einer binären Schwellenwertbildung kollabiert und eine konvexe Hülle des 0-1-Verlusts bildet. Empirische Ergebnisse auf AlpacaEval 2 und Arena-Hard zeigen, dass RePO DPO und SimPO über mehrere Basismodelle hinweg übertrifft und nur einen Hyperparameter zur Abstimmung erfordert.
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary