Optimisation directe des préférences en utilisant des contraintes parcimonieuses au niveau des caractéristiques

Résumé

L'alignement des grands modèles de langage (LLM) avec les préférences humaines reste un défi majeur. Alors que des techniques post-entraînement telles que l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) et l'Optimisation Directe des Préférences (DPO) ont connu un succès notable, elles introduisent souvent des inefficacités computationnelles et une instabilité d'entraînement. Dans cet article, nous proposons l'Optimisation des Préférences au Niveau des Caractéristiques (FPO), une méthode novatrice conçue pour simplifier le processus d'alignement tout en garantissant la stabilité. FPO exploite des Autoencodeurs Épars (SAEs) pré-entraînés et introduit des contraintes au niveau des caractéristiques, permettant un alignement efficace et contrôlé par la parcimonie. Notre approche bénéficie de l'efficacité en utilisant des caractéristiques éparses activées dans un autoencodeur épars bien entraîné et de la qualité de la divergence KL séquentielle en utilisant la référence hors ligne au niveau des caractéristiques. Les résultats expérimentaux sur des ensembles de données de référence montrent que FPO atteint une amélioration absolue du taux de victoire de 5,08 % avec un coût computationnel bien inférieur par rapport aux références de pointe, en faisant une solution prometteuse pour des alignements de LLM efficaces et contrôlables.

English

The alignment of large language models (LLMs) with human preferences remains a key challenge. While post-training techniques like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have achieved notable success, they often introduce computational inefficiencies and training instability. In this paper, we propose Feature-level constrained Preference Optimization (FPO), a novel method designed to simplify the alignment process while ensuring stability. FPO leverages pre-trained Sparse Autoencoders (SAEs) and introduces feature-level constraints, allowing for efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using sparse features activated in a well-trained sparse autoencoder and the quality of sequential KL divergence by using the feature-level offline reference. Experimental results on benchmark datasets demonstrate that FPO achieves a 5.08% absolute improvement in win rate with much lower computational cost compared to state-of-the-art baselines, making it a promising solution for efficient and controllable LLM alignments.

Optimisation directe des préférences en utilisant des contraintes parcimonieuses au niveau des caractéristiques

Direct Preference Optimization Using Sparse Feature-Level Constraints

Résumé

Support