LLM에서의 보상 강인한 RLHF
Reward-Robust RLHF in LLMs
September 18, 2024
저자: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI
초록
대형 언어 모델(LLM)이 더 고도화된 지능 형태로 발전함에 따라 인간 피드백으로부터 강화 학습(RLHF)이 인공 일반 지능(AGI)을 달성하기 위한 핵심 경로로 점점 더 인식되고 있습니다. 그러나 보상 모델 기반(RM 기반) 정렬 방법에 의존하는 것은 보상 모델(RM)의 내재적 불안정성과 불완전성으로 인해 중요한 도전에 직면하게 됩니다. 이는 보상 해킹과 인간 의도와의 불일치와 같은 중요한 문제로 이어질 수 있습니다. 본 논문에서는 이러한 기본적 도전에 대응하기 위해 목표로 하는 보상 강건 RLHF 프레임워크를 소개하며, 이를 통해 LLM에서 더 신뢰할 수 있고 견고한 학습을 위한 길을 열어갑니다. 우리의 접근 방식은 베이지안 보상 모델 앙상블(BRME)을 통합하여 보상 함수의 불확실성 집합을 모델링함으로써 성능과 강건성을 신중하게 균형있게 조화시키는 새로운 최적화 목표를 제시합니다. 이를 통해 프레임워크는 명목 성능과 최소 보상 신호를 통합하여 더 안정적인 학습을 보장하며 불완전한 보상 모델에서도 안정적인 학습을 가능케 합니다. 경험적 결과는 우리의 프레임워크가 다양한 벤치마크에서 전통적인 RLHF를 일관되게 능가하며 향상된 정확성과 장기 안정성을 보여준다는 것을 입증합니다. 또한 상수 보상 설정의 안정성에 접근하는 것을 보여주는 이론적 분석을 제시합니다. 이는 확률적 케이스 분석에서 효과적임이 입증됩니다. 이러한 기여들은 프레임워크가 LLM 정렬의 성능과 안정성을 향상시킬 잠재력을 강조합니다.
English
As Large Language Models (LLMs) continue to progress toward more advanced
forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is
increasingly seen as a key pathway toward achieving Artificial General
Intelligence (AGI). However, the reliance on reward-model-based (RM-based)
alignment methods introduces significant challenges due to the inherent
instability and imperfections of Reward Models (RMs), which can lead to
critical issues such as reward hacking and misalignment with human intentions.
In this paper, we introduce a reward-robust RLHF framework aimed at addressing
these fundamental challenges, paving the way for more reliable and resilient
learning in LLMs. Our approach introduces a novel optimization objective that
carefully balances performance and robustness by incorporating Bayesian Reward
Model Ensembles (BRME) to model the uncertainty set of reward functions. This
allows the framework to integrate both nominal performance and minimum reward
signals, ensuring more stable learning even with imperfect reward models.
Empirical results demonstrate that our framework consistently outperforms
traditional RLHF across diverse benchmarks, showing improved accuracy and
long-term stability. We also provide a theoretical analysis, demonstrating that
reward-robust RLHF approaches the stability of constant reward settings, which
proves to be effective in a stochastic-case analysis. Together, these
contributions highlight the framework potential to enhance both the performance
and stability of LLM alignment with RLHF.Summary
AI-Generated Summary