Effiziente Ausrichtung für Sprachmodelle mit begrenzten Daten

Zusammenfassung

Wir untersuchen Methoden zur effizienten Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen unter Berücksichtigung eines budgetierten Online-Feedbacks. Zunächst formulieren wir das LLM-Ausrichtungsproblem im Rahmen von kontextuellen Duell-Banditen. Diese Formulierung, die jüngste Paradigmen wie Online-RLHF und Online-DPO umfasst, zielt grundsätzlich auf sample-effiziente Algorithmen ab, die eine Online-aktive Exploration integrieren. Unter Nutzung von Erkenntnissen aus der Banditentheorie stellen wir einen vereinheitlichten Algorithmus auf der Basis von Thompson-Sampling vor und heben dessen Anwendungen in zwei unterschiedlichen Szenarien der LLM-Ausrichtung hervor. Der praktische Agent, der diesen Algorithmus effizient implementiert und SEA (Sample-Efficient Alignment) genannt wird, wird empirisch durch umfangreiche Experimente über drei Modellskalen (1B, 2,8B, 6,9B) und drei Präferenzlernalgorithmen (DPO, IPO, SLiC) validiert. Die Ergebnisse zeigen, dass SEA eine äußerst sample-effiziente Ausrichtung mit den Präferenzen des Orakels erreicht und dabei aktuelle Algorithmen zur aktiven Exploration für LLMs übertrifft. Darüber hinaus veröffentlichen wir die Implementierung von SEA zusammen mit einer effizienten Codebasis, die für die Online-Ausrichtung von LLMs entwickelt wurde, mit dem Ziel, zukünftige Forschung in diesem Bereich zu beschleunigen.

English

We study methods for efficiently aligning large language models (LLMs) with human preferences given budgeted online feedback. We first formulate the LLM alignment problem in the frame of contextual dueling bandits. This formulation, subsuming recent paradigms such as online RLHF and online DPO, inherently quests for sample-efficient algorithms that incorporate online active exploration. Leveraging insights from bandit theory, we introduce a unified algorithm based on Thompson sampling and highlight its applications in two distinct LLM alignment scenarios. The practical agent that efficiently implements this algorithm, named SEA (Sample-Efficient Alignment), is empirically validated through extensive experiments across three model scales (1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The results demonstrate that SEA achieves highly sample-efficient alignment with oracle's preferences, outperforming recent active exploration methods for LLMs. Additionally, we release the implementation of SEA together with an efficient codebase designed for online alignment of LLMs, aiming to accelerate future research in this field.

Effiziente Ausrichtung für Sprachmodelle mit begrenzten Daten

Sample-Efficient Alignment for LLMs

Zusammenfassung

Summary

Support