Агентное моделирование вознаграждений: интеграция человеческих предпочтений с проверяемыми сигналами корректности для создания надежных систем вознаграждений
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
February 26, 2025
Авторы: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Аннотация
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении и масштабировании больших языковых моделей (Large Language Models, LLMs) на этапе вывода. Однако существующие модели вознаграждения в основном сосредоточены на человеческих предпочтениях, игнорируя проверяемые сигналы корректности, которые показали значительный потенциал в обучении LLM. В данной статье мы предлагаем агентное моделирование вознаграждения — систему вознаграждения, которая объединяет модели вознаграждения с проверяемыми сигналами корректности из различных аспектов для обеспечения надежных вознаграждений. Мы эмпирически реализуем агента вознаграждения, названного RewardAgent, который сочетает вознаграждения на основе человеческих предпочтений с двумя проверяемыми сигналами: фактической точностью и следованием инструкциям, чтобы обеспечить более надежные вознаграждения. Мы проводим всесторонние эксперименты на существующих бенчмарках моделей вознаграждения и методах поиска "best-of-n" на этапе вывода для реальных задач. RewardAgent значительно превосходит стандартные модели вознаграждения, демонстрируя свою эффективность. Мы также создаем пары предпочтений для обучения с использованием RewardAgent и обучаем LLM с использованием цели DPO, достигая превосходной производительности на различных NLP-бенчмарках по сравнению с традиционными моделями вознаграждения. Наш код публично доступен для дальнейших исследований (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling
up of large language models (LLMs). However, existing reward models primarily
focus on human preferences, neglecting verifiable correctness signals which
have shown strong potential in training LLMs. In this paper, we propose agentic
reward modeling, a reward system that combines reward models with verifiable
correctness signals from different aspects to provide reliable rewards. We
empirically implement a reward agent, named RewardAgent, that combines human
preference rewards with two verifiable signals: factuality and instruction
following, to provide more reliable rewards. We conduct comprehensive
experiments on existing reward model benchmarks and inference time best-of-n
searches on real-world downstream tasks. RewardAgent significantly outperforms
vanilla reward models, demonstrating its effectiveness. We further construct
training preference pairs using RewardAgent and train an LLM with the DPO
objective, achieving superior performance on various NLP benchmarks compared to
conventional reward models. Our codes are publicly released to facilitate
further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).Summary
AI-Generated Summary