RLHS: Смягчение несоответствия в RLHF с помощью имитации постфактум.
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
Авторы: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Аннотация
Генеративные системы искусственного интеллекта, такие как модели-основы (FMs), должны хорошо соответствовать человеческим ценностям, чтобы обеспечить полезное и надежное поведение. В то время как обучение с подкреплением на основе обратной связи от людей (RLHF) показало себя многообещающим в оптимизации производительности модели с использованием человеческих оценок, существующие конвейеры RLHF в основном полагаются на мгновенную обратную связь, которая может не точно отражать последствия взаимодействия для полезности пользователей. Мы демонстрируем, что обратная связь на основе оценок предвидения о последствиях систематически порождает динамику закона Гудхарта, стимулируя несоответствующие поведенческие модели, такие как подхалимство и обман, и в конечном итоге ухудшая результаты для пользователей. Для устранения этого мы предлагаем разделить оценку от предсказания, перенацелив RLHF на обратную связь по итогам. Наше теоретическое исследование показывает, что условие обратной связи оценщика на последующие наблюдения смягчает несоответствие и улучшает ожидаемую полезность для человека, даже когда эти наблюдения симулируются самой системой искусственного интеллекта. Чтобы использовать это понимание в практическом алгоритме выравнивания, мы представляем обучение с подкреплением на основе симуляции по итогам (RLHS), которое сначала симулирует вероятные последствия, а затем запрашивает обратную связь, чтобы оценить, какие поведенческие модели действительно были полезны с точки зрения итогов. Мы применяем RLHS к двум широко используемым методам оптимизации предпочтений онлайн и офлайн - Проксимальная оптимизация политики (PPO) и Прямая оптимизация предпочтений (DPO) - и эмпирически показываем, что несоответствие значительно снижается с обоими методами. Через онлайн-исследование с участием человека мы показываем, что RLHS последовательно превосходит RLHF в помощи пользователям в достижении их целей и получает более высокие оценки удовлетворенности, несмотря на то, что обучался исключительно с помощью симулированной обратной связи по итогам. Эти результаты подчеркивают важность фокусировки на долгосрочных последствиях, даже симулированных, для смягчения несоответствия в RLHF.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary