RLHS: Mitigando Desalinhamento em RLHF com Simulação de Retrospectiva
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
January 15, 2025
Autores: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Resumo
Sistemas de IA generativa como modelos fundamentais (FMs) devem estar alinhados com os valores humanos para garantir que seu comportamento seja útil e confiável. Embora o Aprendizado por Reforço a partir do Feedback Humano (RLHF) tenha mostrado promessa para otimizar o desempenho do modelo usando julgamentos humanos, os pipelines de RLHF existentes predominantemente dependem de feedback imediato, o que pode falhar em refletir com precisão o impacto subsequente de uma interação na utilidade dos usuários. Demonstramos que o feedback baseado em estimativas de previsão dos avaliadores sobre as consequências futuras induz sistematicamente dinâmicas da Lei de Goodhart, incentivando comportamentos desalinhados como adulação e decepção e, em última instância, degradando os resultados dos usuários. Para mitigar isso, propomos desvincular a avaliação da previsão, concentrando o RLHF no feedback retrospectivo. Nossa análise teórica revela que condicionar o feedback do avaliador às observações futuras atenua o desalinhamento e melhora a utilidade humana esperada, mesmo quando essas observações são simuladas pelo próprio sistema de IA. Para aproveitar essa percepção em um algoritmo prático de alinhamento, introduzimos o Aprendizado por Reforço a partir da Simulação Retrospectiva (RLHS), que primeiro simula consequências plausíveis e depois solicita feedback para avaliar quais comportamentos foram genuinamente benéficos em retrospecto. Aplicamos o RLHS a dois métodos amplamente utilizados de otimização de preferências online e offline - Otimização de Política Próxima (PPO) e Otimização Direta de Preferências (DPO) - e mostramos empiricamente que o desalinhamento é significativamente reduzido com ambos os métodos. Por meio de um estudo humano online, demonstramos que o RLHS supera consistentemente o RLHF em ajudar os usuários a alcançar seus objetivos e recebe classificações de satisfação mais altas, apesar de ser treinado exclusivamente com feedback retrospectivo simulado. Esses resultados destacam a importância de focar nas consequências de longo prazo, mesmo que simuladas, para mitigar o desalinhamento no RLHF.
English
Generative AI systems like foundation models (FMs) must align well with human
values to ensure their behavior is helpful and trustworthy. While Reinforcement
Learning from Human Feedback (RLHF) has shown promise for optimizing model
performance using human judgments, existing RLHF pipelines predominantly rely
on immediate feedback, which can fail to accurately reflect the downstream
impact of an interaction on users' utility. We demonstrate that feedback based
on evaluators' foresight estimates of downstream consequences systematically
induces Goodhart's Law dynamics, incentivizing misaligned behaviors like
sycophancy and deception and ultimately degrading user outcomes. To alleviate
this, we propose decoupling evaluation from prediction by refocusing RLHF on
hindsight feedback. Our theoretical analysis reveals that conditioning
evaluator feedback on downstream observations mitigates misalignment and
improves expected human utility, even when these observations are simulated by
the AI system itself. To leverage this insight in a practical alignment
algorithm, we introduce Reinforcement Learning from Hindsight Simulation
(RLHS), which first simulates plausible consequences and then elicits feedback
to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS
to two widely-employed online and offline preference optimization methods --
Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) --
and show empirically that misalignment is significantly reduced with both
methods. Through an online human user study, we show that RLHS consistently
outperforms RLHF in helping users achieve their goals and earns higher
satisfaction ratings, despite being trained solely with simulated hindsight
feedback. These results underscore the importance of focusing on long-term
consequences, even simulated ones, to mitigate misalignment in RLHF.Summary
AI-Generated Summary