REINFORCE++: Uma Abordagem Simples e Eficiente para Alinhar Modelos de Linguagem Grandes
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models
January 4, 2025
Autores: Jian Hu
cs.AI
Resumo
A Aprendizagem por Reforço a partir de Feedback Humano (RLHF) surgiu como uma abordagem crítica para alinhar grandes modelos de linguagem com as preferências humanas, testemunhando uma rápida evolução algorítmica por meio de métodos como Otimização de Política Próxima (PPO), Otimização Direta de Preferência (DPO), REINFORCE Leave One-Out (RLOO), ReMax e Otimização de Política Relativa em Grupo (GRPO). Apresentamos o REINFORCE++, uma variante aprimorada do algoritmo clássico REINFORCE que incorpora técnicas-chave de otimização do PPO, eliminando a necessidade de uma rede crítica. O REINFORCE++ alcança três objetivos principais: (1) simplicidade, (2) estabilidade de treinamento aprimorada e (3) redução da sobrecarga computacional. Por meio de uma extensa avaliação empírica, demonstramos que o REINFORCE++ exibe uma estabilidade superior em comparação com o GRPO e alcança uma eficiência computacional maior do que o PPO, mantendo um desempenho comparável. A implementação está disponível em https://github.com/OpenRLHF/OpenRLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical
approach for aligning large language models with human preferences, witnessing
rapid algorithmic evolution through methods such as Proximal Policy
Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave
One-Out (RLOO), ReMax, and Group Relative Policy Optimization (GRPO). We
present REINFORCE++, an enhanced variant of the classical REINFORCE algorithm
that incorporates key optimization techniques from PPO while eliminating the
need for a critic network. REINFORCE++ achieves three primary objectives: (1)
simplicity (2) enhanced training stability, and (3) reduced computational
overhead. Through extensive empirical evaluation, we demonstrate that
REINFORCE++ exhibits superior stability compared to GRPO and achieves greater
computational efficiency than PPO while maintaining comparable performance. The
implementation is available at https://github.com/OpenRLHF/OpenRLHF.Summary
AI-Generated Summary