ChatPaper.aiChatPaper

조절된 개입 선호 최적화 (MIPO): 쉬운 것은 유지하고, 어려운 것을 개선하기

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

September 26, 2024
저자: Cheolhun Jang
cs.AI

초록

선호도 최적화 방법은 일반적으로 훈련을 잘 마친 SFT 모델을 참조 모델로 사용하여 시작합니다. RLHF와 DPO에서는 선호도 최적화 과정 중 정책 모델이 참조 모델의 분포에서 지나치게 벗어나는 것을 방지하기 위해 정규화 항을 사용하여 이상한 응답을 생성하는 것을 피합니다. 참조 모델이 이미 주어진 데이터와 잘 일치하거나 약간의 조정만 필요한 경우, 이 방법은 잘 일치하는 모델을 생성할 수 있습니다. 그러나 참조 모델이 주어진 데이터와 일치하지 않고 현재 상태에서 크게 벗어나야 하는 경우, 정규화 항은 모델의 일치를 방해할 수 있습니다. 본 연구에서는 이 문제를 해결하기 위해 조절된 개입 선호도 최적화(MIPO)를 제안합니다. MIPO는 주어진 데이터가 참조 모델과 얼마나 잘 일치하는지에 따라 참조 모델로부터 개입의 정도를 변조합니다. 데이터가 잘 일치하는 경우, 개입이 증가하여 정책 모델이 참조 모델에서 크게 벗어나는 것을 방지합니다. 반대로, 일치가 나쁜 경우, 개입을 줄여 더 철저한 훈련을 용이하게 합니다. 우리는 Alpaca Eval 2.0 및 MT-Bench에서 Mistral-7B 및 Llama3-8B를 사용하여 MIPO와 DPO의 성능을 비교합니다. 실험 결과는 MIPO가 다양한 평가 시나리오에서 일관되게 DPO를 능가한다는 것을 보여줍니다.
English
Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose Modulated Intervention Preference Optimization (MIPO) to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.

Summary

AI-Generated Summary

PDF205November 16, 2024