SALSA: Soepgebaseerd uitlijnleren voor sterkere aanpassing in RLHF
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF
November 4, 2024
Auteurs: Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh
cs.AI
Samenvatting
Bij de ontwikkeling van Grote Taalmodellen (GTM) is Versterkend Leren van Menselijke Feedback (VLMF) cruciaal om modellen af te stemmen op menselijke waarden en voorkeuren. VLMF vertrouwt traditioneel op de Kullback-Leibler (KL) divergentie tussen het huidige beleid en een bevroren oorspronkelijk beleid als referentie, die wordt toegevoegd als een straf in beleidsoptimalisatie-algoritmen zoals Proximale Beleidsoptimalisatie (PBO). Hoewel deze beperking voorkomt dat modellen te ver afdwalen van het oorspronkelijke controlepunt, beperkt het de verkenning van het beloningslandschap, waardoor het vermogen van het model om hoogwaardige oplossingen te ontdekken wordt verminderd. Als gevolg hiervan zit beleidsoptimalisatie vaak gevangen in een nauwe regio van de parameterruimte, wat leidt tot suboptimale afstemming en prestaties. Dit artikel presenteert SALSA (Soepgebaseerd Afstemmingsleren voor Sterkere Aanpassing), een nieuw benadering ontworpen om deze beperkingen te overwinnen door een flexibeler en beter gelegen referentiemodel te creëren via gewichtsruimte-averaging van twee onafhankelijke fijn afgestemde toezichtsmodellen. Deze modelsoep staat grotere afwijkingen toe in KL divergentie en het verkennen van een veelbelovende regio van de oplossingsruimte zonder stabiliteit op te offeren. Door gebruik te maken van dit robuustere referentiemodel, bevordert SALSA betere verkenning, behaalt hogere beloningen en verbetert de robuustheid van het model, generalisatie buiten de distributie en prestaties. We valideren de effectiviteit van SALSA door uitgebreide experimenten op populaire open modellen (Llama2-7B, Mistral-7B en Gemma-2B) over verschillende benchmarks (MT-Bench, Arena-Hard, UltraFeedback), waar het consequent PBO overtreft door diepere verkenning te bevorderen en superieure afstemming te bereiken in GTM's.
English
In Large Language Model (LLM) development, Reinforcement Learning from Human
Feedback (RLHF) is crucial for aligning models with human values and
preferences. RLHF traditionally relies on the Kullback-Leibler (KL) divergence
between the current policy and a frozen initial policy as a reference, which is
added as a penalty in policy optimization algorithms like Proximal Policy
Optimization (PPO). While this constraint prevents models from deviating too
far from the initial checkpoint, it limits exploration of the reward landscape,
reducing the model's ability to discover higher-quality solutions. As a result,
policy optimization is often trapped in a narrow region of the parameter space,
leading to suboptimal alignment and performance. This paper presents SALSA
(Soup-based Alignment Learning for Stronger Adaptation), a novel approach
designed to overcome these limitations by creating a more flexible and better
located reference model through weight-space averaging of two independent
supervised fine-tuned (SFT) models. This model soup allows for larger deviation
in KL divergence and exploring a promising region of the solution space without
sacrificing stability. By leveraging this more robust reference model, SALSA
fosters better exploration, achieving higher rewards and improving model
robustness, out-of-distribution generalization, and performance. We validate
the effectiveness of SALSA through extensive experiments on popular open models
(Llama2-7B, Mistral-7B, and Gemma-2B) across various benchmarks (MT-Bench,
Arena-Hard, UltraFeedback), where it consistently surpasses PPO by fostering
deeper exploration and achieving superior alignment in LLMs.Summary
AI-Generated Summary