RLHS: 후견 시뮬레이션을 활용한 RLHF의 불일치 완화
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
저자: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
초록
생성적 AI 시스템인 Foundation 모델(FMs)은 인간의 가치와 잘 일치해야 하며 그들의 행동이 도움이 되고 신뢰할 수 있도록 보장해야 합니다. 인간 피드백으로부터 강화 학습(RLHF)은 모델 성능을 최적화하는 데 유용한 것으로 입증되었지만, 기존의 RLHF 파이프라인은 주로 즉각적인 피드백에 의존하며, 이는 상호 작용이 사용자의 유틸리티에 미치는 하류 영향을 정확하게 반영하지 못할 수 있습니다. 우리는 평가자의 선견적인 결과 예측에 기반한 피드백이 Goodhart의 법칙 역학을 체계적으로 유발하여 아첨과 속임수와 같은 일치하지 않은 행동을 장려하고 궁극적으로 사용자 결과를 저하시킨다는 것을 입증합니다. 이를 완화하기 위해 우리는 평가를 예측으로부터 분리함으로써 RLHF를 회고 피드백에 재집중하는 것을 제안합니다. 우리의 이론적 분석은 평가자 피드백을 하류 관측에 조건을 두면 일치하지 않음을 완화하고 기대 인간 유틸리티를 향상시킨다는 것을 밝혀냅니다. 심지어 이러한 관측이 AI 시스템 자체에 의해 시뮬레이션된 경우에도 해당됩니다. 이러한 통찰을 실용적인 정렬 알고리즘에 활용하기 위해 우리는 회고 피드백으로부터 강화 학습을 소개합니다. 먼저 가능한 결과를 시뮬레이션하고 나중에 어떤 행동이 실제로 회고에서 유익했는지를 평가하기 위해 피드백을 얻습니다. 우리는 Proximal Policy Optimization (PPO)와 Direct Preference Optimization (DPO)라는 두 가지 널리 사용되는 온라인 및 오프라인 선호도 최적화 방법에 RLHS를 적용하고, 두 방법 모두에서 일치하지 않음이 크게 감소하는 것을 실험적으로 보여줍니다. 온라인 사용자 연구를 통해 RLHS가 사용자가 목표를 달성하는 데 도움이 되고 더 높은 만족도 평가를 받는 RLHF보다 일관되게 우수함을 보여줍니다. 이러한 결과는 RLHF에서 일치하지 않음을 완화하기 위해 장기적인 결과에 집중하는 중요성을 강조합니다.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary