텍스트를 세분화하고 언어 모델에서 RLHF를 향상시키기 위해 보상을 학습하는 지침
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
January 6, 2025
저자: Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou
cs.AI
초록
인간 피드백으로부터의 강화 학습 (RLHF)은 언어 모델(LMs)을 인간의 선호와 조율하는 데 널리 사용되어 왔습니다. 이전 RLHF 연구들은 일반적으로 밴딧(bandit) 공식을 채택했는데, 이는 직관적이지만 LM 생성의 순차적 성질을 무시하고 희소 보상 문제에 시달릴 수 있습니다. 최근 연구들은 각 토큰을 하나의 행동으로 취급하는 밀도 높은 토큰 수준의 RLHF를 제안하고 있지만, 이는 적절한 보상 할당에 지나치게 섬세할 수 있습니다. 본 논문에서는 단어의 짧은 시퀀스에 걸쳐 이어지는 의미적으로 완전한 텍스트 세그먼트에 보상을 할당하는 세그먼트 수준 보상 모델을 훈련하고 활용함으로써 양쪽의 장점을 취하려 합니다. 보상 학습을 위해 우리의 방법은 동적 텍스트 세그멘테이션을 허용하고 표준 시퀀스 선호 데이터셋과 호환됩니다. 세그먼트 보상에 대한 효과적인 RL 기반 LM 훈련을 위해 우리는 고전적인 스칼라 밴딧 보상 정규화기를 위치 인식 정규화 함수로 일반화하고 세그먼트 보상을 보다 밀집시키기 위해 선형 보상을 보간합니다. 이러한 설계를 통해 우리의 방법은 LM 정책에 대한 세 가지 인기 있는 RLHF 벤치마크인 AlpacaEval 2.0, Arena-Hard, MT-Bench에서 경쟁력 있는 성과를 보입니다. 추가적으로 우리의 방법을 더 자세히 설명하기 위해 제거 연구가 수행되었습니다.
English
Reinforcement learning from human feedback (RLHF) has been widely adopted to
align language models (LMs) with human preference. Prior RLHF works typically
take a bandit formulation, which, though intuitive, ignores the sequential
nature of LM generation and can suffer from the sparse reward issue. While
recent works propose dense token-level RLHF, treating each token as an action
may be oversubtle to proper reward assignment. In this paper, we seek to get
the best of both by training and utilizing a segment-level reward model, which
assigns a reward to each semantically complete text segment that spans over a
short sequence of tokens. For reward learning, our method allows dynamic text
segmentation and compatibility with standard sequence-preference datasets. For
effective RL-based LM training against segment reward, we generalize the
classical scalar bandit reward normalizers into location-aware normalizer
functions and interpolate the segment reward for further densification. With
these designs, our method performs competitively on three popular RLHF
benchmarks for LM policy: AlpacaEval 2.0, Arena-Hard, and MT-Bench. Ablation
studies are conducted to further demonstrate our method.Summary
AI-Generated Summary