Alignement des grands modèles de langage via l'optimisation auto-directionnelle
Aligning Large Language Models via Self-Steering Optimization
October 22, 2024
Auteurs: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI
Résumé
L'alignement automatisé développe des systèmes d'alignement avec une intervention humaine minimale. La clé de l'alignement automatisé réside dans la fourniture de signaux de préférence apprenables et précis pour l'apprentissage des préférences sans annotation humaine. Dans cet article, nous introduisons l'Optimisation à Auto-Pilotage (SSO), un algorithme qui génère de manière autonome des signaux de préférence de haute qualité basés sur des principes prédéfinis lors de l'entraînement itératif, éliminant ainsi le besoin d'annotation manuelle. SSO maintient l'exactitude des signaux en garantissant un écart constant entre les réponses choisies et rejetées tout en les maintenant toutes les deux en conformité avec le modèle de politique actuel pour s'adapter à sa capacité d'apprentissage. SSO peut bénéficier de l'entraînement en ligne et hors ligne du modèle de politique, ainsi que renforcer l'entraînement des modèles de récompense. Nous validons l'efficacité de SSO avec deux modèles de base, Qwen2 et Llama3.1, indiquant qu'il fournit des signaux de préférence précis et en conformité avec la politique tout au long de l'entraînement itératif. Sans aucune annotation manuelle ni modèles externes, SSO conduit à des améliorations significatives des performances sur six référentiels subjectifs ou objectifs. De plus, les données de préférence générées par SSO ont considérablement amélioré les performances du modèle de récompense sur Rewardbench. Notre travail présente une approche évolutive pour l'optimisation des préférences, ouvrant la voie à un alignement automatisé plus efficace et plus performant.
English
Automated alignment develops alignment systems with minimal human
intervention. The key to automated alignment lies in providing learnable and
accurate preference signals for preference learning without human annotation.
In this paper, we introduce Self-Steering Optimization (SSO), an algorithm
that autonomously generates high-quality preference signals based on predefined
principles during iterative training, eliminating the need for manual
annotation. SSO maintains the accuracy of signals by ensuring a consistent
gap between chosen and rejected responses while keeping them both on-policy to
suit the current policy model's learning capacity. SSO can benefit the online
and offline training of the policy model, as well as enhance the training of
reward models. We validate the effectiveness of SSO with two foundation
models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy
preference signals throughout iterative training. Without any manual annotation
or external models, SSO leads to significant performance improvements across
six subjective or objective benchmarks. Besides, the preference data generated
by SSO significantly enhanced the performance of the reward model on
Rewardbench. Our work presents a scalable approach to preference optimization,
paving the way for more efficient and effective automated alignment.Summary
AI-Generated Summary