Экономный и эффективный: Оптимизация политики с разделенными значениями и глобальным управлением ценностями

Аннотация

Обучение с подкреплением на основе обратной связи от человека (RLHF), использующее метод оптимизации проксимальной политики (PPO), играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Этот подход требует совместного обучения актора и критика с использованием предобученной фиксированной модели вознаграждения для руководства. Однако это увеличивает вычислительную сложность и нестабильность из-за взаимозависимости актора и критика. Кроме того, PPO не имеет доступа к истинным вознаграждениям среды в задачах LLM, что ограничивает его адаптивность. В таких условиях предобучение модели ценности или модели вознаграждения становится эквивалентным, поскольку обе предоставляют фиксированные сигналы для обучения без новых эталонных данных. Для решения этих проблем мы предлагаем метод Decoupled Value Policy Optimization (DVPO) — облегченный подход, который заменяет традиционное моделирование вознаграждения на предобученную глобальную модель ценности (GVM). GVM учитывает траектории политики и предсказывает оценки возврата на уровне токенов. Благодаря разделению модели ценности и обучения политики (через замороженные цели RL, управляемые GVM), DVPO устраняет взаимозависимость актора и критика, сокращая использование памяти GPU на 40% и время обучения на 35% по сравнению с традиционным RLHF. Эксперименты на различных бенчмарках показывают, что DVPO превосходит эффективные методы RLHF (например, DPO) и соответствует производительности современных методов PPO.

English

Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Экономный и эффективный: Оптимизация политики с разделенными значениями и глобальным управлением ценностями

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

Аннотация

Summary

Support