RLHF Asincrono: RL Fuori Politica Più Veloce ed Efficiente per Modelli Linguistici
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
October 23, 2024
Autori: Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville
cs.AI
Abstract
Il paradigma dominante per RLHF è l'apprendimento per rinforzo online e on-policy: generare sincronamente dalla grande modello di linguaggio (LLM), etichettare con un modello di ricompensa e apprendere utilizzando il feedback sugli output del LLM stesso. Sebbene performante, questo paradigma è computazionalmente inefficiente. Ispirati dalla letteratura classica sull'apprendimento profondo per rinforzo, proponiamo di separare la generazione e l'apprendimento in RLHF. Ciò consente la generazione asincrona di nuovi campioni mentre si addestra contemporaneamente su vecchi campioni, portando a un addestramento più veloce e a una scalabilità più ottimale dal punto di vista computazionale. Tuttavia, l'addestramento asincrono si basa su un regime poco esplorato, online ma off-policy per RLHF: apprendere su campioni dalle iterazioni precedenti del nostro modello. Per comprendere le sfide in questo regime, esaminiamo una domanda fondamentale: quanto off-policy possiamo tollerare per accelerare l'apprendimento con l'addestramento asincrono mantenendo le prestazioni? Tra diversi algoritmi RLHF testati, scopriamo che il DPO online è il più robusto ai dati off-policy, e la robustezza aumenta con la scala del modello di politica. Studiamo ulteriori ottimizzazioni computazionali per RLHF asincrono ma scopriamo che comportano un costo sulle prestazioni, creando un compromesso. Infine, verifichiamo la scalabilità di RLHF asincrono addestrando LLaMA 3.1 8B su un compito di seguire istruzioni il 40% più velocemente rispetto a un'esecuzione sincrona mantenendo le prestazioni finali.
English
The dominant paradigm for RLHF is online and on-policy RL: synchronously
generating from the large language model (LLM) policy, labelling with a reward
model, and learning using feedback on the LLM's own outputs. While performant,
this paradigm is computationally inefficient. Inspired by classical deep RL
literature, we propose separating generation and learning in RLHF. This enables
asynchronous generation of new samples while simultaneously training on old
samples, leading to faster training and more compute-optimal scaling. However,
asynchronous training relies on an underexplored regime, online but off-policy
RLHF: learning on samples from previous iterations of our model. To understand
the challenges in this regime, we investigate a fundamental question: how much
off-policyness can we tolerate for asynchronous training to speed up learning
but maintain performance? Among several RLHF algorithms we tested, we find that
online DPO is most robust to off-policy data, and robustness increases with the
scale of the policy model. We study further compute optimizations for
asynchronous RLHF but find that they come at a performance cost, giving rise to
a trade-off. Finally, we verify the scalability of asynchronous RLHF by
training LLaMA 3.1 8B on an instruction-following task 40% faster than a
synchronous run while matching final performance.Summary
AI-Generated Summary