Ausrichtung großer Sprachmodelle durch Selbstlenkende Optimierung
Aligning Large Language Models via Self-Steering Optimization
October 22, 2024
Autoren: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI
Zusammenfassung
Die automatische Ausrichtung entwickelt Ausrichtungssysteme mit minimalem menschlichem Eingriff. Der Schlüssel zur automatischen Ausrichtung liegt darin, erlernbare und genaue Präferenzsignale für das Präferenzlernen ohne menschliche Annotation bereitzustellen. In diesem Papier stellen wir Self-Steering Optimization (SSO) vor, einen Algorithmus, der autonom hochwertige Präferenzsignale basierend auf vordefinierten Prinzipien während des iterativen Trainings generiert und somit auf manuelle Annotation verzichtet. SSO gewährleistet die Genauigkeit der Signale, indem ein konsistenter Unterschied zwischen ausgewählten und abgelehnten Antworten sichergestellt wird, während beide im Einklang mit dem aktuellen Richtlinienmodell bleiben, um dessen Lernkapazität zu unterstützen. SSO kann das Online- und Offline-Training des Richtlinienmodells sowie das Training von Belohnungsmodellen verbessern. Wir validieren die Wirksamkeit von SSO anhand von zwei Grundlagenmodellen, Qwen2 und Llama3.1, was darauf hindeutet, dass es genaue, im Einklang mit der Richtlinie stehende Präferenzsignale während des iterativen Trainings liefert. Ohne manuelle Annotation oder externe Modelle führt SSO zu signifikanten Leistungsverbesserungen über sechs subjektive oder objektive Benchmarks hinweg. Darüber hinaus verbesserten die von SSO generierten Präferenzdaten signifikant die Leistung des Belohnungsmodells auf Rewardbench. Unsere Arbeit präsentiert einen skalierbaren Ansatz zur Präferenzoptimierung und ebnet den Weg für eine effizientere und effektivere automatische Ausrichtung.
English
Automated alignment develops alignment systems with minimal human
intervention. The key to automated alignment lies in providing learnable and
accurate preference signals for preference learning without human annotation.
In this paper, we introduce Self-Steering Optimization (SSO), an algorithm
that autonomously generates high-quality preference signals based on predefined
principles during iterative training, eliminating the need for manual
annotation. SSO maintains the accuracy of signals by ensuring a consistent
gap between chosen and rejected responses while keeping them both on-policy to
suit the current policy model's learning capacity. SSO can benefit the online
and offline training of the policy model, as well as enhance the training of
reward models. We validate the effectiveness of SSO with two foundation
models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy
preference signals throughout iterative training. Without any manual annotation
or external models, SSO leads to significant performance improvements across
six subjective or objective benchmarks. Besides, the preference data generated
by SSO significantly enhanced the performance of the reward model on
Rewardbench. Our work presents a scalable approach to preference optimization,
paving the way for more efficient and effective automated alignment.Summary
AI-Generated Summary