ChatPaper.aiChatPaper

Итеративная оптимизация функции ценности для управляемого декодирования

Iterative Value Function Optimization for Guided Decoding

March 4, 2025
Авторы: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao
cs.AI

Аннотация

Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало основным методом управления выводами языковых моделей, оно страдает от высоких вычислительных затрат и нестабильности обучения. Управляемое декодирование, особенно методы, основанные на ценностях, предлагает экономичную альтернативу, позволяя контролировать выводы без необходимости переобучения моделей. Однако точность функции ценности имеет решающее значение для ценностно-управляемого декодирования, так как неточности могут привести к неоптимальному принятию решений и ухудшению производительности. Существующие методы сталкиваются с трудностями в точной оценке оптимальной функции ценности, что приводит к менее эффективному управлению. Мы предлагаем Итеративную оптимизацию функции ценности — новый подход, который устраняет эти ограничения за счет двух ключевых компонентов: оценки ценности методом Монте-Карло, которая снижает дисперсию оценки за счет исследования разнообразных траекторий, и итеративной оптимизации на основе политик, которая постепенно улучшает оценку ценности за счет сбора траекторий от ценностно-управляемых политик. Многочисленные эксперименты в областях суммаризации текста, многократного диалога и выполнения инструкций демонстрируют эффективность подходов, основанных на ценностно-управляемом декодировании, для согласования языковых моделей. Эти подходы не только обеспечивают согласование, но и значительно снижают вычислительные затраты, используя принципиальную оптимизацию функции ценности для эффективного и результативного управления.
English
While Reinforcement Learning from Human Feedback (RLHF) has become the predominant method for controlling language model outputs, it suffers from high computational costs and training instability. Guided decoding, especially value-guided methods, offers a cost-effective alternative by controlling outputs without re-training models. However, the accuracy of the value function is crucial for value-guided decoding, as inaccuracies can lead to suboptimal decision-making and degraded performance. Existing methods struggle with accurately estimating the optimal value function, leading to less effective control. We propose Iterative Value Function Optimization, a novel framework that addresses these limitations through two key components: Monte Carlo Value Estimation, which reduces estimation variance by exploring diverse trajectories, and Iterative On-Policy Optimization, which progressively improves value estimation through collecting trajectories from value-guided policies. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of value-guided decoding approaches in aligning language models. These approaches not only achieve alignment but also significantly reduce computational costs by leveraging principled value function optimization for efficient and effective control.

Summary

AI-Generated Summary

PDF142March 5, 2025