자가 조종 최적화를 통한 대규모 언어 모델 정렬

초록

자동 맞춤은 최소한의 인간 개입으로 맞춤 시스템을 개발합니다. 자동 맞춤의 핵심은 인간 주석 없이 학습 가능하고 정확한 선호 학습을 위한 선호 신호를 제공하는 데 있습니다. 본 논문에서는 사전에 정의된 원칙에 기반한 고품질 선호 신호를 반복적 훈련 중에 자동으로 생성하는 Self-Steering Optimization (SSO) 알고리즘을 소개합니다. 이를 통해 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없

English

Automated alignment develops alignment systems with minimal human intervention. The key to automated alignment lies in providing learnable and accurate preference signals for preference learning without human annotation. In this paper, we introduce Self-Steering Optimization (SSO), an algorithm that autonomously generates high-quality preference signals based on predefined principles during iterative training, eliminating the need for manual annotation. SSO maintains the accuracy of signals by ensuring a consistent gap between chosen and rejected responses while keeping them both on-policy to suit the current policy model's learning capacity. SSO can benefit the online and offline training of the policy model, as well as enhance the training of reward models. We validate the effectiveness of SSO with two foundation models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy preference signals throughout iterative training. Without any manual annotation or external models, SSO leads to significant performance improvements across six subjective or objective benchmarks. Besides, the preference data generated by SSO significantly enhanced the performance of the reward model on Rewardbench. Our work presents a scalable approach to preference optimization, paving the way for more efficient and effective automated alignment.

자가 조종 최적화를 통한 대규모 언어 모델 정렬

Aligning Large Language Models via Self-Steering Optimization

초록

Summary

Support