LLM에 대한 효율적인 샘플 정렬
Sample-Efficient Alignment for LLMs
November 3, 2024
저자: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
초록
우리는 예산이 할당된 온라인 피드백을 고려하여 대규모 언어 모델 (LLM)을 효율적으로 조정하는 방법에 대해 연구합니다. 우리는 먼저 LLM 조정 문제를 문맥적인 듀얼링 밴딧의 프레임에서 정의합니다. 이 정의는 최근의 온라인 RLHF 및 온라인 DPO와 같은 패러다임을 포함하며, 온라인 액티브 탐사를 통합하는 효율적인 샘플 알고리즘을 탐구합니다. 밴딧 이론에서 얻은 통찰을 활용하여, Thompson 샘플링을 기반으로 한 통합 알고리즘을 소개하고, 이 알고리즘의 두 가지 다른 LLM 조정 시나리오에서의 응용을 강조합니다. 이 알고리즘을 효율적으로 구현하는 실용적 에이전트인 SEA (Sample-Efficient Alignment)는 1B, 2.8B, 6.9B 세 가지 모델 규모와 DPO, IPO, SLiC 세 가지 선호 학습 알고리즘을 통해 광범위한 실험을 통해 경험적으로 검증되었습니다. 결과는 SEA가 오라클의 선호도에 매우 효율적으로 조정을 달성하며, LLM을 위한 최근의 액티브 탐사 방법을 능가한다는 것을 보여줍니다. 또한, 우리는 LLM의 온라인 조정을 위해 설계된 효율적인 코드베이스와 함께 SEA의 구현을 공개하여, 이 분야의 미래 연구를 가속화하는 것을 목표로 합니다.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary