Efficiënte Monsteruitlijning voor Taalmodel met Beperkte Gegevens
Sample-Efficient Alignment for LLMs
November 3, 2024
Auteurs: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Samenvatting
We bestuderen methoden voor het efficiënt afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren gegeven een beperkt online budget voor feedback. We formuleren eerst het probleem van het afstemmen van LLM's binnen het kader van contextuele duellerende bandieten. Deze formulering, waarin recente paradigma's zoals online RLHF en online DPO zijn opgenomen, streeft inherent naar algoritmes die efficiënt omgaan met voorbeelden en online actieve verkenning integreren. Door inzichten uit de bandietentheorie te benutten, introduceren we een verenigd algoritme gebaseerd op Thompson-sampling en benadrukken we de toepassingen ervan in twee verschillende scenario's voor het afstemmen van LLM's. De praktische agent die dit algoritme efficiënt implementeert, genaamd SEA (Sample-Efficient Alignment), wordt empirisch gevalideerd via uitgebreide experimenten over drie modelgroottes (1B, 2.8B, 6.9B) en drie algoritmes voor voorkeursleren (DPO, IPO, SLiC). De resultaten tonen aan dat SEA zeer efficiënte afstemming met de voorkeuren van de orakel bereikt, waarbij het recente methoden voor actieve verkenning van LLM's overtreft. Daarnaast stellen we de implementatie van SEA beschikbaar samen met een efficiënte codebase die is ontworpen voor online afstemming van LLM's, met als doel toekomstig onderzoek op dit gebied te versnellen.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary