言語モデルにおける改善されたRLHFのためのテキストのセグメンテーションと報酬の学習
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
January 6, 2025
著者: Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou
cs.AI
要旨
人間のフィードバックからの強化学習(RLHF)は、言語モデル(LMs)を人間の好みに合わせるために広く採用されています。従来のRLHFの作業は、一般的にバンディットの定式化を採用しており、直感的ではありますが、LM生成の連続性を無視し、希少な報酬の問題に苦しむ可能性があります。最近の研究では、各トークンを行動として扱う密なトークンレベルのRLHFが提案されていますが、適切な報酬割り当てには微妙すぎるかもしれません。本論文では、短いトークンのシーケンスにわたる意味のあるテキストセグメントに報酬を割り当てるセグメントレベルの報酬モデルをトレーニングおよび利用することで、両者の利点を最大限に活用しようとしています。報酬学習では、動的なテキストセグメンテーションを可能にし、標準のシーケンス選好データセットとの互換性を持たせています。セグメント報酬に対する効果的なRLベースのLMトレーニングのために、古典的なスカラーバンディット報酬正規化を位置認識型正規化関数に一般化し、セグメント報酬をさらに密に補間しています。これらの設計により、当該手法は、LMポリシーに関する3つの人気のあるRLHFベンチマーク(AlpacaEval 2.0、Arena-Hard、MT-Bench)で競争力のあるパフォーマンスを発揮します。アブレーション研究も実施され、当該手法がさらに示されています。
English
Reinforcement learning from human feedback (RLHF) has been widely adopted to
align language models (LMs) with human preference. Prior RLHF works typically
take a bandit formulation, which, though intuitive, ignores the sequential
nature of LM generation and can suffer from the sparse reward issue. While
recent works propose dense token-level RLHF, treating each token as an action
may be oversubtle to proper reward assignment. In this paper, we seek to get
the best of both by training and utilizing a segment-level reward model, which
assigns a reward to each semantically complete text segment that spans over a
short sequence of tokens. For reward learning, our method allows dynamic text
segmentation and compatibility with standard sequence-preference datasets. For
effective RL-based LM training against segment reward, we generalize the
classical scalar bandit reward normalizers into location-aware normalizer
functions and interpolate the segment reward for further densification. With
these designs, our method performs competitively on three popular RLHF
benchmarks for LM policy: AlpacaEval 2.0, Arena-Hard, and MT-Bench. Ablation
studies are conducted to further demonstrate our method.Summary
AI-Generated Summary