RLHS: Minderung von Missabstimmung in RLHF durch rückblickende Simulation
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
Autoren: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Zusammenfassung
Generative KI-Systeme wie Grundlagenmodelle (FMs) müssen gut mit menschlichen Werten in Einklang stehen, um sicherzustellen, dass ihr Verhalten hilfreich und vertrauenswürdig ist. Während das Lernen aus menschlichem Feedback für die Verstärkung (RLHF) vielversprechend war, um die Leistung des Modells mithilfe menschlicher Beurteilungen zu optimieren, stützen sich bestehende RLHF-Pipelines hauptsächlich auf unmittelbares Feedback, das möglicherweise nicht genau die Auswirkungen einer Interaktion auf den Nutzen der Benutzer widerspiegelt. Wir zeigen, dass Feedback, das auf Schätzungen der Voraussicht von Evaluatoren über nachgelagerte Konsequenzen basiert, systematisch Dynamiken des Goodhart-Gesetzes induziert, die Fehlausrichtungen wie Schmeichelei und Täuschung fördern und letztendlich die Nutzerergebnisse verschlechtern. Um dem entgegenzuwirken, schlagen wir vor, die Bewertung von der Vorhersage zu entkoppeln, indem wir RLHF auf Rückblick-Feedback neu ausrichten. Unsere theoretische Analyse zeigt, dass die Konditionierung des Evaluatoren-Feedbacks auf nachgelagerte Beobachtungen Fehlausrichtungen mildert und die erwartete menschliche Nützlichkeit verbessert, selbst wenn diese Beobachtungen vom KI-System selbst simuliert werden. Um diese Erkenntnis in einem praktischen Ausrichtungsalgorithmus zu nutzen, führen wir das Lernen aus Rückblicksimulation (RLHS) ein, das zunächst plausible Konsequenzen simuliert und dann Feedback einholt, um zu bewerten, welche Verhaltensweisen im Nachhinein tatsächlich vorteilhaft waren. Wir wenden RLHS auf zwei weit verbreitete Online- und Offline-Methoden zur Präferenzoptimierung an - Proximale Richtlinienoptimierung (PPO) und Direkte Präferenzoptimierung (DPO) - und zeigen empirisch, dass die Fehlausrichtung bei beiden Methoden signifikant reduziert wird. Durch eine Online-Benutzerstudie zeigen wir, dass RLHS konsistent besser abschneidet als RLHF, um Benutzern bei der Zielerreichung zu helfen und höhere Zufriedenheitsbewertungen zu erzielen, obwohl es ausschließlich mit simuliertem Rückblick-Feedback trainiert wurde. Diese Ergebnisse unterstreichen die Bedeutung, sich auf langfristige Konsequenzen, auch auf simulierte, zu konzentrieren, um Fehlausrichtungen in RLHF zu mildern.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary