ChatPaper.aiChatPaper

RRM: 견고한 보상 모델 훈련이 보상 해킹을 완화합니다.

RRM: Robust Reward Model Training Mitigates Reward Hacking

September 20, 2024
저자: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh
cs.AI

초록

보상 모델(RMs)은 대형 언어 모델(LLMs)을 인간의 선호에 맞추는 데 중추적인 역할을 합니다. 그러나 특정 프롬프트에 묶인 응답 쌍에 의존하는 전통적인 RM 훈련은 응답 길이와 형식과 같은 프롬프트 독립적 아티팩트로부터 프롬프트 주도적 선호를 분리하는 데 어려움을 겪습니다. 본 연구에서는 현재의 RM 훈련 방법의 근본적인 한계를 드러내어, RM이 선호를 결정할 때 문맥 신호와 관련 없는 아티팩트를 효과적으로 구별하지 못하는 것을 보여줍니다. 이를 해결하기 위해, 이러한 아티팩트와 독립적으로 선호를 학습하는 인과적 프레임워크를 소개하고, 이를 제거하기 위해 설계된 새로운 데이터 증강 기술을 제안합니다. 광범위한 실험을 통해 우리의 접근 방식이 원치 않는 아티팩트를 성공적으로 걸러내어 더 견고한 보상 모델(RRM)을 얻는 데 성공했음을 보여줍니다. 우리의 RRM은 Gemma-2-9b-it에서 훈련된 쌍별 보상 모델의 성능을 향상시켜 RewardBench에서의 정확도를 80.61%에서 84.15%로 높였습니다. 또한 RM과 RRM을 모두 사용하여 두 개의 DPO 정책을 훈련시켰으며, RRM이 DPO에 맞춘 정책을 크게 향상시키는 것을 보여주었습니다. MT-Bench 점수를 7.27에서 8.31로, AlpacaEval-2의 길이 제어된 승률을 33.46%에서 52.49%로 향상시켰습니다.
English
Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

Summary

AI-Generated Summary

PDF52November 16, 2024