RLHS: Mitigazione dello Sfasamento in RLHF con Simulazione Retrospettiva
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
Autori: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Abstract
I sistemi AI generativi come i modelli fondamentali (FMs) devono essere allineati in modo appropriato con i valori umani per garantire che il loro comportamento sia utile e affidabile. Sebbene il Reinforcement Learning from Human Feedback (RLHF) abbia mostrato promesse nell'ottimizzazione delle prestazioni del modello utilizzando i giudizi umani, i flussi di lavoro RLHF esistenti si basano principalmente su feedback immediati, che possono non riflettere accuratamente l'impatto a valle di un'interazione sull'utilità degli utenti. Dimostriamo che il feedback basato sulle stime della previsione degli osservatori sulle conseguenze a valle induce sistematicamente dinamiche della Legge di Goodhart, incentivando comportamenti non allineati come la servilità e l'inganno e degradando infine i risultati degli utenti. Per alleviare ciò, proponiamo di separare la valutazione dalla previsione riorientando il RLHF sul feedback in retrospettiva. La nostra analisi teorica rivela che condizionare il feedback degli osservatori sulle osservazioni a valle mitiga il disallineamento e migliora l'utilità umana attesa, anche quando queste osservazioni sono simulate dal sistema AI stesso. Per sfruttare questa intuizione in un algoritmo di allineamento pratico, introduciamo il Reinforcement Learning from Hindsight Simulation (RLHS), che prima simula conseguenze plausibili e poi raccoglie feedback per valutare quali comportamenti siano stati effettivamente benefici in retrospettiva. Applichiamo RLHS a due metodi di ottimizzazione delle preferenze online e offline ampiamente impiegati - Proximal Policy Optimization (PPO) e Direct Preference Optimization (DPO) - e mostriamo empiricamente che il disallineamento è significativamente ridotto con entrambi i metodi. Attraverso uno studio online con utenti umani, mostriamo che RLHS supera costantemente RLHF nell'aiutare gli utenti a raggiungere i loro obiettivi e ottiene valutazioni di soddisfazione più elevate, nonostante sia stato addestrato esclusivamente con feedback simulati in retrospettiva. Questi risultati sottolineano l'importanza di concentrarsi sulle conseguenze a lungo termine, anche se simulate, per mitigare il disallineamento in RLHF.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary