SALSA : Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée en RLHF
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF
November 4, 2024
Auteurs: Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh
cs.AI
Résumé
Dans le développement des Grands Modèles de Langage (GML), l'Apprentissage par Renforcement à partir des Retours Humains (ARRH) est crucial pour aligner les modèles avec les valeurs et préférences humaines. L'ARRH repose traditionnellement sur la divergence de Kullback-Leibler (KL) entre la politique actuelle et une politique initiale figée comme référence, ajoutée en tant que pénalité dans les algorithmes d'optimisation de politique tels que l'Optimisation de Politique Proximale (PPO). Bien que cette contrainte empêche les modèles de s'écarter trop loin du point de contrôle initial, elle limite l'exploration du paysage des récompenses, réduisant ainsi la capacité du modèle à découvrir des solutions de meilleure qualité. En conséquence, l'optimisation de la politique est souvent piégée dans une région étroite de l'espace des paramètres, entraînant un alignement et des performances sous-optimales. Cet article présente SALSA (Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée), une approche novatrice conçue pour surmonter ces limitations en créant un modèle de référence plus flexible et mieux positionné grâce à une moyenne dans l'espace des poids de deux modèles supervisés finement ajustés (SFA) indépendants. Cette soupe de modèles permet une plus grande déviation dans la divergence de KL et l'exploration d'une région prometteuse de l'espace des solutions sans sacrifier la stabilité. En exploitant ce modèle de référence plus robuste, SALSA favorise une meilleure exploration, atteignant des récompenses plus élevées et améliorant la robustesse du modèle, la généralisation hors distribution et les performances. Nous validons l'efficacité de SALSA à travers des expériences approfondies sur des modèles ouverts populaires (Llama2-7B, Mistral-7B et Gemma-2B) à travers divers benchmarks (MT-Bench, Arena-Hard, UltraFeedback), où il dépasse systématiquement le PPO en favorisant une exploration plus profonde et en atteignant un alignement supérieur dans les GML.
English
In Large Language Model (LLM) development, Reinforcement Learning from Human
Feedback (RLHF) is crucial for aligning models with human values and
preferences. RLHF traditionally relies on the Kullback-Leibler (KL) divergence
between the current policy and a frozen initial policy as a reference, which is
added as a penalty in policy optimization algorithms like Proximal Policy
Optimization (PPO). While this constraint prevents models from deviating too
far from the initial checkpoint, it limits exploration of the reward landscape,
reducing the model's ability to discover higher-quality solutions. As a result,
policy optimization is often trapped in a narrow region of the parameter space,
leading to suboptimal alignment and performance. This paper presents SALSA
(Soup-based Alignment Learning for Stronger Adaptation), a novel approach
designed to overcome these limitations by creating a more flexible and better
located reference model through weight-space averaging of two independent
supervised fine-tuned (SFT) models. This model soup allows for larger deviation
in KL divergence and exploring a promising region of the solution space without
sacrificing stability. By leveraging this more robust reference model, SALSA
fosters better exploration, achieving higher rewards and improving model
robustness, out-of-distribution generalization, and performance. We validate
the effectiveness of SALSA through extensive experiments on popular open models
(Llama2-7B, Mistral-7B, and Gemma-2B) across various benchmarks (MT-Bench,
Arena-Hard, UltraFeedback), where it consistently surpasses PPO by fostering
deeper exploration and achieving superior alignment in LLMs.Summary
AI-Generated Summary