Alignement Économe en Exemples pour les LLM
Sample-Efficient Alignment for LLMs
November 3, 2024
Auteurs: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Résumé
Nous étudions des méthodes pour aligner efficacement de grands modèles de langage (LLM) avec les préférences humaines en tenant compte des retours en ligne budgétisés. Nous formulons d'abord le problème d'alignement des LLM dans le cadre des bandits duel contextuels. Cette formulation, englobant des paradigmes récents tels que RLHF en ligne et DPO en ligne, recherche intrinsèquement des algorithmes efficaces en termes d'échantillonnage qui intègrent une exploration active en ligne. En tirant parti des connaissances de la théorie des bandits, nous introduisons un algorithme unifié basé sur l'échantillonnage de Thompson et mettons en avant ses applications dans deux scénarios d'alignement de LLM distincts. L'agent pratique qui met en œuvre efficacement cet algorithme, nommé SEA (Alignement Économe en Échantillons), est validé empiriquement à travers des expériences approfondies sur trois échelles de modèles (1B, 2,8B, 6,9B) et trois algorithmes d'apprentissage de préférences (DPO, IPO, SLiC). Les résultats démontrent que SEA parvient à un alignement très efficace en termes d'échantillonnage avec les préférences de l'oracle, surpassant les méthodes récentes d'exploration active pour les LLM. De plus, nous mettons à disposition l'implémentation de SEA ainsi qu'une base de code efficace conçue pour l'alignement en ligne des LLM, dans le but d'accélérer les futures recherches dans ce domaine.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary