Allineamento efficiente del campione per LLMs
Sample-Efficient Alignment for LLMs
November 3, 2024
Autori: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Abstract
Studiamo metodi per allineare in modo efficiente grandi modelli linguistici (LLM) con le preferenze umane, dati feedback online con budget limitato. Formuliamo innanzitutto il problema dell'allineamento LLM nel contesto dei banditi duellanti contestuali. Questa formulazione, che include paradigmi recenti come RLHF online e DPO online, cerca intrinsecamente algoritmi efficienti dal punto di vista del campionamento che incorporino esplorazione attiva online. Sfruttando intuizioni dalla teoria dei banditi, presentiamo un algoritmo unificato basato su Thompson sampling e ne evidenziamo le applicazioni in due scenari di allineamento LLM distinti. L'agente pratico che implementa in modo efficiente questo algoritmo, chiamato SEA (Allineamento a Campionamento Efficiente), è validato empiricamente attraverso ampi esperimenti su tre scale di modelli (1B, 2.8B, 6.9B) e tre algoritmi di apprendimento delle preferenze (DPO, IPO, SLiC). I risultati dimostrano che SEA raggiunge un allineamento altamente efficiente dal punto di vista del campionamento con le preferenze dell'oracolo, superando i recenti metodi di esplorazione attiva per LLM. Inoltre, rilasciamo l'implementazione di SEA insieme a una base di codice efficiente progettata per l'allineamento online di LLM, con l'obiettivo di accelerare la ricerca futura in questo campo.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary