Effiziente Ausrichtung für Sprachmodelle mit begrenzten Daten
Sample-Efficient Alignment for LLMs
November 3, 2024
Autoren: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Zusammenfassung
Wir untersuchen Methoden zur effizienten Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen unter Berücksichtigung eines budgetierten Online-Feedbacks. Zunächst formulieren wir das LLM-Ausrichtungsproblem im Rahmen von kontextuellen Duell-Banditen. Diese Formulierung, die jüngste Paradigmen wie Online-RLHF und Online-DPO umfasst, zielt grundsätzlich auf sample-effiziente Algorithmen ab, die eine Online-aktive Exploration integrieren. Unter Nutzung von Erkenntnissen aus der Banditentheorie stellen wir einen vereinheitlichten Algorithmus auf der Basis von Thompson-Sampling vor und heben dessen Anwendungen in zwei unterschiedlichen Szenarien der LLM-Ausrichtung hervor. Der praktische Agent, der diesen Algorithmus effizient implementiert und SEA (Sample-Efficient Alignment) genannt wird, wird empirisch durch umfangreiche Experimente über drei Modellskalen (1B, 2,8B, 6,9B) und drei Präferenzlernalgorithmen (DPO, IPO, SLiC) validiert. Die Ergebnisse zeigen, dass SEA eine äußerst sample-effiziente Ausrichtung mit den Präferenzen des Orakels erreicht und dabei aktuelle Algorithmen zur aktiven Exploration für LLMs übertrifft. Darüber hinaus veröffentlichen wir die Implementierung von SEA zusammen mit einer effizienten Codebasis, die für die Online-Ausrichtung von LLMs entwickelt wurde, mit dem Ziel, zukünftige Forschung in diesem Bereich zu beschleunigen.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary