Экономный и эффективный: Оптимизация политики с разделенными значениями и глобальным управлением ценностями
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance
February 24, 2025
Авторы: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF), использующее метод оптимизации проксимальной политики (PPO), играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Этот подход требует совместного обучения актора и критика с использованием предобученной фиксированной модели вознаграждения для руководства. Однако это увеличивает вычислительную сложность и нестабильность из-за взаимозависимости актора и критика. Кроме того, PPO не имеет доступа к истинным вознаграждениям среды в задачах LLM, что ограничивает его адаптивность. В таких условиях предобучение модели ценности или модели вознаграждения становится эквивалентным, поскольку обе предоставляют фиксированные сигналы для обучения без новых эталонных данных. Для решения этих проблем мы предлагаем метод Decoupled Value Policy Optimization (DVPO) — облегченный подход, который заменяет традиционное моделирование вознаграждения на предобученную глобальную модель ценности (GVM). GVM учитывает траектории политики и предсказывает оценки возврата на уровне токенов. Благодаря разделению модели ценности и обучения политики (через замороженные цели RL, управляемые GVM), DVPO устраняет взаимозависимость актора и критика, сокращая использование памяти GPU на 40% и время обучения на 35% по сравнению с традиционным RLHF. Эксперименты на различных бенчмарках показывают, что DVPO превосходит эффективные методы RLHF (например, DPO) и соответствует производительности современных методов PPO.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human
Feedback (RLHF) is essential for aligning large language models (LLMs) with
human preferences. It requires joint training of an actor and critic with a
pretrained, fixed reward model for guidance. This approach increases
computational complexity and instability due to actor-critic interdependence.
Additionally, PPO lacks access to true environment rewards in LLM tasks,
limiting its adaptability. Under such conditions, pretraining a value model or
a reward model becomes equivalent, as both provide fixed supervisory signals
without new ground-truth feedback. To address these issues, we propose
Decoupled Value Policy Optimization (DVPO), a lean framework that
replaces traditional reward modeling with a pretrained global value model
(GVM). The GVM is conditioned on policy trajectories and predicts token-level
return-to-go estimates. By decoupling value model from policy training (via
frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence,
reducing GPU memory usage by 40\% and training time by 35\% compared to
conventional RLHF. Experiments across benchmarks show DVPO outperforms
efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in
performance.Summary
AI-Generated Summary