Directe voorkeurs optimalisatie met behulp van schaarse kenmerkniveau beperkingen.

Samenvatting

De afstemming van grote taalmodellen (LLM's) op menselijke voorkeuren blijft een belangrijke uitdaging. Hoewel post-trainingstechnieken zoals Versterkend Leren van Menselijke Feedback (RLHF) en Directe Voorkeursoptimalisatie (DPO) opmerkelijk succes hebben behaald, introduceren ze vaak computationele inefficiënties en trainingsinstabiliteit. In dit artikel stellen we Feature-level geconstraineerde Voorkeursoptimalisatie (FPO) voor, een nieuw methode ontworpen om het afstemmingsproces te vereenvoudigen terwijl stabiliteit wordt gewaarborgd. FPO maakt gebruik van vooraf getrainde Schaarse Auto-encoders (SAE's) en introduceert beperkingen op het niveau van kenmerken, waardoor efficiënte, spaarzaam afgedwongen afstemming mogelijk is. Onze benadering geniet efficiëntie door gebruik te maken van spaarzame kenmerken geactiveerd in een goed getrainde spaarzame auto-encoder en de kwaliteit van sequentiële KL-divergentie door gebruik te maken van het kenmerkniveau offline referentie. Experimentele resultaten op benchmark datasets tonen aan dat FPO een absoluut verbetering van 5,08% in winstpercentage behaalt met aanzienlijk lagere computationele kosten in vergelijking met state-of-the-art baselines, waardoor het een veelbelovende oplossing is voor efficiënte en controleerbare LLM-afstemmingen.

English

The alignment of large language models (LLMs) with human preferences remains a key challenge. While post-training techniques like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have achieved notable success, they often introduce computational inefficiencies and training instability. In this paper, we propose Feature-level constrained Preference Optimization (FPO), a novel method designed to simplify the alignment process while ensuring stability. FPO leverages pre-trained Sparse Autoencoders (SAEs) and introduces feature-level constraints, allowing for efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using sparse features activated in a well-trained sparse autoencoder and the quality of sequential KL divergence by using the feature-level offline reference. Experimental results on benchmark datasets demonstrate that FPO achieves a 5.08% absolute improvement in win rate with much lower computational cost compared to state-of-the-art baselines, making it a promising solution for efficient and controllable LLM alignments.

Directe voorkeurs optimalisatie met behulp van schaarse kenmerkniveau beperkingen.

Direct Preference Optimization Using Sparse Feature-Level Constraints

Samenvatting

Support