Allineamento efficiente del campione per LLMs

Sample-Efficient Alignment for LLMs

November 3, 2024
Autori: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI

Abstract

Studiamo metodi per allineare in modo efficiente grandi modelli linguistici (LLM) con le preferenze umane, dati feedback online con budget limitato. Formuliamo innanzitutto il problema dell'allineamento LLM nel contesto dei banditi duellanti contestuali. Questa formulazione, che include paradigmi recenti come RLHF online e DPO online, cerca intrinsecamente algoritmi efficienti dal punto di vista del campionamento che incorporino esplorazione attiva online. Sfruttando intuizioni dalla teoria dei banditi, presentiamo un algoritmo unificato basato su Thompson sampling e ne evidenziamo le applicazioni in due scenari di allineamento LLM distinti. L'agente pratico che implementa in modo efficiente questo algoritmo, chiamato SEA (Allineamento a Campionamento Efficiente), è validato empiricamente attraverso ampi esperimenti su tre scale di modelli (1B, 2.8B, 6.9B) e tre algoritmi di apprendimento delle preferenze (DPO, IPO, SLiC). I risultati dimostrano che SEA raggiunge un allineamento altamente efficiente dal punto di vista del campionamento con le preferenze dell'oracolo, superando i recenti metodi di esplorazione attiva per LLM. Inoltre, rilasciamo l'implementazione di SEA insieme a una base di codice efficiente progettata per l'allineamento online di LLM, con l'obiettivo di accelerare la ricerca futura in questo campo.
English
We study methods for efficiently aligning large language models (LLMs) with human preferences given budgeted online feedback. We first formulate the LLM alignment problem in the frame of contextual dueling bandits. This formulation, subsuming recent paradigms such as online RLHF and online DPO, inherently quests for sample-efficient algorithms that incorporate online active exploration. Leveraging insights from bandit theory, we introduce a unified algorithm based on Thompson sampling and highlight its applications in two distinct LLM alignment scenarios. The practical agent that efficiently implements this algorithm, named SEA (Sample-Efficient Alignment), is empirically validated through extensive experiments across three model scales (1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The results demonstrate that SEA achieves highly sample-efficient alignment with oracle's preferences, outperforming recent active exploration methods for LLMs. Additionally, we release the implementation of SEA together with an efficient codebase designed for online alignment of LLMs, aiming to accelerate future research in this field.

Summary

AI-Generated Summary

PDF101November 13, 2024