Optimisation directe des préférences en utilisant des contraintes parcimonieuses au niveau des caractéristiques
Direct Preference Optimization Using Sparse Feature-Level Constraints
November 12, 2024
Auteurs: Qingyu Yin, Chak Tou Leong, Hongbo Zhang, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
cs.AI
Résumé
L'alignement des grands modèles de langage (LLM) avec les préférences humaines reste un défi majeur. Alors que des techniques post-entraînement telles que l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) et l'Optimisation Directe des Préférences (DPO) ont connu un succès notable, elles introduisent souvent des inefficacités computationnelles et une instabilité d'entraînement. Dans cet article, nous proposons l'Optimisation des Préférences au Niveau des Caractéristiques (FPO), une méthode novatrice conçue pour simplifier le processus d'alignement tout en garantissant la stabilité. FPO exploite des Autoencodeurs Épars (SAEs) pré-entraînés et introduit des contraintes au niveau des caractéristiques, permettant un alignement efficace et contrôlé par la parcimonie. Notre approche bénéficie de l'efficacité en utilisant des caractéristiques éparses activées dans un autoencodeur épars bien entraîné et de la qualité de la divergence KL séquentielle en utilisant la référence hors ligne au niveau des caractéristiques. Les résultats expérimentaux sur des ensembles de données de référence montrent que FPO atteint une amélioration absolue du taux de victoire de 5,08 % avec un coût computationnel bien inférieur par rapport aux références de pointe, en faisant une solution prometteuse pour des alignements de LLM efficaces et contrôlables.
English
The alignment of large language models (LLMs) with human preferences remains
a key challenge. While post-training techniques like Reinforcement Learning
from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have
achieved notable success, they often introduce computational inefficiencies and
training instability. In this paper, we propose Feature-level constrained
Preference Optimization (FPO), a novel method designed to simplify the
alignment process while ensuring stability. FPO leverages pre-trained Sparse
Autoencoders (SAEs) and introduces feature-level constraints, allowing for
efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using
sparse features activated in a well-trained sparse autoencoder and the quality
of sequential KL divergence by using the feature-level offline reference.
Experimental results on benchmark datasets demonstrate that FPO achieves a
5.08% absolute improvement in win rate with much lower computational cost
compared to state-of-the-art baselines, making it a promising solution for
efficient and controllable LLM alignments.Summary
AI-Generated Summary