SALSA : Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée en RLHF

Résumé

Dans le développement des Grands Modèles de Langage (GML), l'Apprentissage par Renforcement à partir des Retours Humains (ARRH) est crucial pour aligner les modèles avec les valeurs et préférences humaines. L'ARRH repose traditionnellement sur la divergence de Kullback-Leibler (KL) entre la politique actuelle et une politique initiale figée comme référence, ajoutée en tant que pénalité dans les algorithmes d'optimisation de politique tels que l'Optimisation de Politique Proximale (PPO). Bien que cette contrainte empêche les modèles de s'écarter trop loin du point de contrôle initial, elle limite l'exploration du paysage des récompenses, réduisant ainsi la capacité du modèle à découvrir des solutions de meilleure qualité. En conséquence, l'optimisation de la politique est souvent piégée dans une région étroite de l'espace des paramètres, entraînant un alignement et des performances sous-optimales. Cet article présente SALSA (Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée), une approche novatrice conçue pour surmonter ces limitations en créant un modèle de référence plus flexible et mieux positionné grâce à une moyenne dans l'espace des poids de deux modèles supervisés finement ajustés (SFA) indépendants. Cette soupe de modèles permet une plus grande déviation dans la divergence de KL et l'exploration d'une région prometteuse de l'espace des solutions sans sacrifier la stabilité. En exploitant ce modèle de référence plus robuste, SALSA favorise une meilleure exploration, atteignant des récompenses plus élevées et améliorant la robustesse du modèle, la généralisation hors distribution et les performances. Nous validons l'efficacité de SALSA à travers des expériences approfondies sur des modèles ouverts populaires (Llama2-7B, Mistral-7B et Gemma-2B) à travers divers benchmarks (MT-Bench, Arena-Hard, UltraFeedback), où il dépasse systématiquement le PPO en favorisant une exploration plus profonde et en atteignant un alignement supérieur dans les GML.

English

In Large Language Model (LLM) development, Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning models with human values and preferences. RLHF traditionally relies on the Kullback-Leibler (KL) divergence between the current policy and a frozen initial policy as a reference, which is added as a penalty in policy optimization algorithms like Proximal Policy Optimization (PPO). While this constraint prevents models from deviating too far from the initial checkpoint, it limits exploration of the reward landscape, reducing the model's ability to discover higher-quality solutions. As a result, policy optimization is often trapped in a narrow region of the parameter space, leading to suboptimal alignment and performance. This paper presents SALSA (Soup-based Alignment Learning for Stronger Adaptation), a novel approach designed to overcome these limitations by creating a more flexible and better located reference model through weight-space averaging of two independent supervised fine-tuned (SFT) models. This model soup allows for larger deviation in KL divergence and exploring a promising region of the solution space without sacrificing stability. By leveraging this more robust reference model, SALSA fosters better exploration, achieving higher rewards and improving model robustness, out-of-distribution generalization, and performance. We validate the effectiveness of SALSA through extensive experiments on popular open models (Llama2-7B, Mistral-7B, and Gemma-2B) across various benchmarks (MT-Bench, Arena-Hard, UltraFeedback), where it consistently surpasses PPO by fostering deeper exploration and achieving superior alignment in LLMs.

SALSA : Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée en RLHF

SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Résumé

Support