DPO-Shift: 직접 선호 최적화의 분포 이동
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
February 11, 2025
저자: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI
초록
직접 선호도 최적화(Direct Preference Optimization, DPO) 및 그 변형은 언어 모델을 인간의 선호도에 맞추는 데 점점 더 인기를 얻고 있습니다. 이러한 방법은 모델이 선택(또는 선호) 및 거부(또는 비선호) 응답을 더 잘 구별하도록 가르치는 것을 목표로 합니다. 그러나 이전 연구에서 선택된 응답의 확률이 종종 훈련 중에 감소한다는 현상인 확률 변위가 식별되었습니다. 이 도전에 대처하기 위해 본 연구에서는 선택된 확률의 분포를 조절할 수 있는 \method를 소개합니다. 그리고 \method가 선택된 확률을 향상시키는 것과 보상 여유를 희생하는 것 사이의 기본적인 상충 관계를 이론적 분석과 실험적 검증을 통해 뒷받침하고 있음을 보여줍니다. 더 나아가, MT-Bench 및 설계된 승률 실험과 같은 하류 작업에서 \method가 DPO보다 우월함을 입증합니다. 이 연구는 DPO의 확률 변위 문제가 간단하고 이론적으로 근거 있는 해결책으로 효과적으로 완화될 수 있다는 것을 보여줍니다. 저희의 코드는 https://github.com/Meaquadddd/DPO-Shift에서 확인할 수 있습니다.
English
Direct Preference Optimization (DPO) and its variants have become
increasingly popular for aligning language models with human preferences. These
methods aim to teach models to better distinguish between chosen (or preferred)
and rejected (or dispreferred) responses. However, prior research has
identified that the probability of chosen responses often decreases during
training, and this phenomenon is known as likelihood displacement. To tackle
this challenge, in this work we introduce \method to controllably shift the
distribution of the chosen probability. Then, we show that \method exhibits a
fundamental trade-off between improving the chosen probability and sacrificing
the reward margin, as supported by both theoretical analysis and experimental
validation. Furthermore, we demonstrate the superiority of \method over DPO on
downstream tasks such as MT-Bench and a designed win rate experiment. We
believe this study shows that the likelihood displacement issue of DPO can be
effectively mitigated with a simple, theoretically grounded solution. Our code
is available at https://github.com/Meaquadddd/DPO-Shift.Summary
AI-Generated Summary