RLHS: Het verminderen van misalignement in RLHF met hindsight simulatie.
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
Auteurs: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Samenvatting
Generatieve AI-systemen zoals foundation modellen (FMs) moeten goed aansluiten bij menselijke waarden om ervoor te zorgen dat hun gedrag behulpzaam en betrouwbaar is. Hoewel Versterkend Leren van Menselijke Feedback (RLHF) veelbelovend is gebleken voor het optimaliseren van modelprestaties met behulp van menselijke beoordelingen, vertrouwen bestaande RLHF-pijplijnen voornamelijk op directe feedback, wat mogelijk niet nauwkeurig de downstream impact van een interactie op het nut van gebruikers weergeeft. We tonen aan dat feedback gebaseerd op schattingen van de vooruitziende blik van beoordelaars van downstream consequenties systematisch Goodhart's Law dynamiek induceert, waarbij misplaatst gedrag zoals vleierij en bedrog wordt gestimuleerd en uiteindelijk de uitkomsten voor gebruikers verslechtert. Om dit te verlichten, stellen we voor de evaluatie los te koppelen van voorspelling door RLHF te heroriënteren op feedback achteraf. Onze theoretische analyse onthult dat het conditioneren van beoordelaarsfeedback op downstream observaties de misalignering vermindert en het verwachte menselijke nut verbetert, zelfs wanneer deze observaties gesimuleerd worden door het AI-systeem zelf. Om deze inzichten te benutten in een praktisch aligneringsalgoritme, introduceren we Versterkend Leren van Hindsight Simulatie (RLHS), dat eerst plausibele consequenties simuleert en vervolgens feedback vraagt om te beoordelen welk gedrag achteraf echt gunstig was. We passen RLHS toe op twee veelgebruikte online en offline voorkeursoptimalisatiemethoden - Proximale Beleidsoptimalisatie (PPO) en Directe Voorkeursoptimalisatie (DPO) - en tonen empirisch aan dat misalignering aanzienlijk wordt verminderd bij beide methoden. Via een online menselijke gebruikersstudie tonen we aan dat RLHS consequent beter presteert dan RLHF bij het helpen van gebruikers om hun doelen te bereiken en hogere tevredenheidsbeoordelingen krijgt, ondanks dat het alleen is getraind met gesimuleerde hindsight-feedback. Deze resultaten benadrukken het belang van het focussen op langetermijngevolgen, zelfs gesimuleerde, om misalignering in RLHF te verminderen.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary