ChatPaper.aiChatPaper

Esplorazione delle tendenze e degli effetti del ridimensionamento dei dati nell'apprendimento per rinforzo da feedback umano

Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

March 28, 2025
Autori: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI

Abstract

Il Reinforcement Learning from Human Feedback (RLHF) è cruciale per allineare i grandi modelli linguistici alle preferenze umane. Mentre la ricerca recente si è concentrata sui miglioramenti algoritmici, l'importanza della costruzione dei dati di prompt è stata trascurata. Questo articolo affronta questa lacuna esplorando i colli di bottiglia basati sui dati nella scalabilità delle prestazioni dell'RLHF, in particolare il reward hacking e la diminuzione della diversità delle risposte. Introduciamo un sistema di ricompensa ibrido che combina verificatori di task di ragionamento (RTV) e un modello di ricompensa generativo (GenRM) per mitigare il reward hacking. Proponiamo inoltre un nuovo metodo di selezione dei prompt, Pre-PPO, per mantenere la diversità delle risposte e migliorare l'efficacia dell'apprendimento. Inoltre, scopriamo che dare priorità ai task matematici e di codifica all'inizio dell'addestramento RLHF migliora significativamente le prestazioni. Esperimenti condotti su due dimensioni di modello convalidano l'efficacia e la scalabilità dei nostri metodi. I risultati mostrano che l'RTV è più resistente al reward hacking, seguito dal GenRM con ground truth, e poi dal GenRM con risposte SFT Best-of-N. Le nostre strategie consentono di catturare rapidamente sottili distinzioni specifiche del task, portando a sostanziali miglioramenti nelle prestazioni complessive dell'RLHF. Questo lavoro evidenzia l'importanza di una attenta costruzione dei dati e fornisce metodi pratici per superare le barriere prestazionali nell'RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning large language models with human preferences. While recent research has focused on algorithmic improvements, the importance of prompt-data construction has been overlooked. This paper addresses this gap by exploring data-driven bottlenecks in RLHF performance scaling, particularly reward hacking and decreasing response diversity. We introduce a hybrid reward system combining reasoning task verifiers (RTV) and a generative reward model (GenRM) to mitigate reward hacking. We also propose a novel prompt-selection method, Pre-PPO, to maintain response diversity and enhance learning effectiveness. Additionally, we find that prioritizing mathematical and coding tasks early in RLHF training significantly improves performance. Experiments across two model sizes validate our methods' effectiveness and scalability. Results show that RTV is most resistant to reward hacking, followed by GenRM with ground truth, and then GenRM with SFT Best-of-N responses. Our strategies enable rapid capture of subtle task-specific distinctions, leading to substantial improvements in overall RLHF performance. This work highlights the importance of careful data construction and provides practical methods to overcome performance barriers in RLHF.

Summary

AI-Generated Summary

PDF442March 31, 2025