Efficiënte Monsteruitlijning voor Taalmodel met Beperkte Gegevens

Samenvatting

We bestuderen methoden voor het efficiënt afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren gegeven een beperkt online budget voor feedback. We formuleren eerst het probleem van het afstemmen van LLM's binnen het kader van contextuele duellerende bandieten. Deze formulering, waarin recente paradigma's zoals online RLHF en online DPO zijn opgenomen, streeft inherent naar algoritmes die efficiënt omgaan met voorbeelden en online actieve verkenning integreren. Door inzichten uit de bandietentheorie te benutten, introduceren we een verenigd algoritme gebaseerd op Thompson-sampling en benadrukken we de toepassingen ervan in twee verschillende scenario's voor het afstemmen van LLM's. De praktische agent die dit algoritme efficiënt implementeert, genaamd SEA (Sample-Efficient Alignment), wordt empirisch gevalideerd via uitgebreide experimenten over drie modelgroottes (1B, 2.8B, 6.9B) en drie algoritmes voor voorkeursleren (DPO, IPO, SLiC). De resultaten tonen aan dat SEA zeer efficiënte afstemming met de voorkeuren van de orakel bereikt, waarbij het recente methoden voor actieve verkenning van LLM's overtreft. Daarnaast stellen we de implementatie van SEA beschikbaar samen met een efficiënte codebase die is ontworpen voor online afstemming van LLM's, met als doel toekomstig onderzoek op dit gebied te versnellen.

English

We study methods for efficiently aligning large language models (LLMs) with human preferences given budgeted online feedback. We first formulate the LLM alignment problem in the frame of contextual dueling bandits. This formulation, subsuming recent paradigms such as online RLHF and online DPO, inherently quests for sample-efficient algorithms that incorporate online active exploration. Leveraging insights from bandit theory, we introduce a unified algorithm based on Thompson sampling and highlight its applications in two distinct LLM alignment scenarios. The practical agent that efficiently implements this algorithm, named SEA (Sample-Efficient Alignment), is empirically validated through extensive experiments across three model scales (1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The results demonstrate that SEA achieves highly sample-efficient alignment with oracle's preferences, outperforming recent active exploration methods for LLMs. Additionally, we release the implementation of SEA together with an efficient codebase designed for online alignment of LLMs, aiming to accelerate future research in this field.

Efficiënte Monsteruitlijning voor Taalmodel met Beperkte Gegevens

Sample-Efficient Alignment for LLMs

Samenvatting

Support