Het afstemmen van grote taalmodellen via zelfsturende optimalisatie.
Aligning Large Language Models via Self-Steering Optimization
October 22, 2024
Auteurs: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
Geautomatiseerde afstemming ontwikkelt afstemmingssystemen met minimale menselijke tussenkomst. De sleutel tot geautomatiseerde afstemming ligt in het verschaffen van leerzame en nauwkeurige voorkeursignalen voor voorkeursleren zonder menselijke annotatie. In dit artikel introduceren we Zelfsturende Optimalisatie (SSO), een algoritme dat autonoom hoogwaardige voorkeursignalen genereert op basis van vooraf gedefinieerde principes tijdens iteratieve training, waardoor de noodzaak voor handmatige annotatie wordt geëlimineerd. SSO handhaaft de nauwkeurigheid van signalen door ervoor te zorgen dat er een consistente kloof is tussen gekozen en afgewezen reacties, terwijl ze beide on-policy worden gehouden om aan te sluiten bij de leercapaciteit van het huidige beleidsmodel. SSO kan profiteren van de online en offline training van het beleidsmodel, evenals het verbeteren van de training van beloningsmodellen. We valideren de effectiviteit van SSO met twee basismodellen, Qwen2 en Llama3.1, wat aangeeft dat het nauwkeurige, on-policy voorkeursignalen biedt gedurende iteratieve training. Zonder enige handmatige annotatie of externe modellen leidt SSO tot aanzienlijke prestatieverbeteringen over zes subjectieve of objectieve benchmarks. Bovendien heeft de voorkeursdata gegenereerd door SSO aanzienlijk de prestaties van het beloningsmodel op Rewardbench verbeterd. Ons werk presenteert een schaalbare aanpak voor voorkeursoptimalisatie, waardoor de weg wordt vrijgemaakt voor efficiëntere en effectievere geautomatiseerde afstemming.
English
Automated alignment develops alignment systems with minimal human
intervention. The key to automated alignment lies in providing learnable and
accurate preference signals for preference learning without human annotation.
In this paper, we introduce Self-Steering Optimization (SSO), an algorithm
that autonomously generates high-quality preference signals based on predefined
principles during iterative training, eliminating the need for manual
annotation. SSO maintains the accuracy of signals by ensuring a consistent
gap between chosen and rejected responses while keeping them both on-policy to
suit the current policy model's learning capacity. SSO can benefit the online
and offline training of the policy model, as well as enhance the training of
reward models. We validate the effectiveness of SSO with two foundation
models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy
preference signals throughout iterative training. Without any manual annotation
or external models, SSO leads to significant performance improvements across
six subjective or objective benchmarks. Besides, the preference data generated
by SSO significantly enhanced the performance of the reward model on
Rewardbench. Our work presents a scalable approach to preference optimization,
paving the way for more efficient and effective automated alignment.Summary
AI-Generated Summary