Directe voorkeurs optimalisatie met behulp van schaarse kenmerkniveau beperkingen.
Direct Preference Optimization Using Sparse Feature-Level Constraints
November 12, 2024
Auteurs: Qingyu Yin, Chak Tou Leong, Hongbo Zhang, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
cs.AI
Samenvatting
De afstemming van grote taalmodellen (LLM's) op menselijke voorkeuren blijft een belangrijke uitdaging. Hoewel post-trainingstechnieken zoals Versterkend Leren van Menselijke Feedback (RLHF) en Directe Voorkeursoptimalisatie (DPO) opmerkelijk succes hebben behaald, introduceren ze vaak computationele inefficiënties en trainingsinstabiliteit. In dit artikel stellen we Feature-level geconstraineerde Voorkeursoptimalisatie (FPO) voor, een nieuw methode ontworpen om het afstemmingsproces te vereenvoudigen terwijl stabiliteit wordt gewaarborgd. FPO maakt gebruik van vooraf getrainde Schaarse Auto-encoders (SAE's) en introduceert beperkingen op het niveau van kenmerken, waardoor efficiënte, spaarzaam afgedwongen afstemming mogelijk is. Onze benadering geniet efficiëntie door gebruik te maken van spaarzame kenmerken geactiveerd in een goed getrainde spaarzame auto-encoder en de kwaliteit van sequentiële KL-divergentie door gebruik te maken van het kenmerkniveau offline referentie. Experimentele resultaten op benchmark datasets tonen aan dat FPO een absoluut verbetering van 5,08% in winstpercentage behaalt met aanzienlijk lagere computationele kosten in vergelijking met state-of-the-art baselines, waardoor het een veelbelovende oplossing is voor efficiënte en controleerbare LLM-afstemmingen.
English
The alignment of large language models (LLMs) with human preferences remains
a key challenge. While post-training techniques like Reinforcement Learning
from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have
achieved notable success, they often introduce computational inefficiencies and
training instability. In this paper, we propose Feature-level constrained
Preference Optimization (FPO), a novel method designed to simplify the
alignment process while ensuring stability. FPO leverages pre-trained Sparse
Autoencoders (SAEs) and introduces feature-level constraints, allowing for
efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using
sparse features activated in a well-trained sparse autoencoder and the quality
of sequential KL divergence by using the feature-level offline reference.
Experimental results on benchmark datasets demonstrate that FPO achieves a
5.08% absolute improvement in win rate with much lower computational cost
compared to state-of-the-art baselines, making it a promising solution for
efficient and controllable LLM alignments.Summary
AI-Generated Summary