Segmentação de Texto e Aprendizado de suas Recompensas para Melhoria do RLHF em Modelo de Linguagem
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
January 6, 2025
Autores: Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou
cs.AI
Resumo
A aprendizagem por reforço a partir do feedback humano (RLHF) tem sido amplamente adotada para alinhar modelos de linguagem (LMs) com a preferência humana. Trabalhos anteriores de RLHF geralmente adotam uma formulação de bandit, que, embora intuitiva, ignora a natureza sequencial da geração de LM e pode sofrer com o problema da recompensa esparsa. Enquanto trabalhos recentes propõem RLHF denso ao nível do token, tratando cada token como uma ação pode ser excessivamente sutil para atribuição adequada de recompensa. Neste artigo, buscamos obter o melhor dos dois mundos treinando e utilizando um modelo de recompensa ao nível de segmento, que atribui uma recompensa a cada segmento de texto semanticamente completo que abrange uma sequência curta de tokens. Para aprendizado de recompensa, nosso método permite segmentação dinâmica de texto e é compatível com conjuntos de dados padrão de preferência de sequência. Para treinamento eficaz de LM baseado em RL contra recompensa de segmento, generalizamos os normalizadores de recompensa clássicos de bandit escalar em funções de normalização sensíveis à localização e interpolamos a recompensa de segmento para maior densificação. Com esses projetos, nosso método apresenta desempenho competitivo em três benchmarks populares de RLHF para política de LM: AlpacaEval 2.0, Arena-Hard e MT-Bench. Estudos de ablação são conduzidos para demonstrar ainda mais nosso método.
English
Reinforcement learning from human feedback (RLHF) has been widely adopted to
align language models (LMs) with human preference. Prior RLHF works typically
take a bandit formulation, which, though intuitive, ignores the sequential
nature of LM generation and can suffer from the sparse reward issue. While
recent works propose dense token-level RLHF, treating each token as an action
may be oversubtle to proper reward assignment. In this paper, we seek to get
the best of both by training and utilizing a segment-level reward model, which
assigns a reward to each semantically complete text segment that spans over a
short sequence of tokens. For reward learning, our method allows dynamic text
segmentation and compatibility with standard sequence-preference datasets. For
effective RL-based LM training against segment reward, we generalize the
classical scalar bandit reward normalizers into location-aware normalizer
functions and interpolate the segment reward for further densification. With
these designs, our method performs competitively on three popular RLHF
benchmarks for LM policy: AlpacaEval 2.0, Arena-Hard, and MT-Bench. Ablation
studies are conducted to further demonstrate our method.Summary
AI-Generated Summary