PopAlign: 보다 포괄적인 정렬을 위한 다양한 대조 패턴화
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
저자: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
초록
대형 언어 모델 (LLM)의 정렬은 인간의 선호에 따라 응답을 조정하기 위해 모델을 학습시키는 것을 포함합니다. 이러한 대조적인 쌍을 얻기 위해, RLHF와 RLAIF와 같은 전통적인 방법은 모델 변형이나 디코딩 온도와 같은 제한된 대조 패턴에 의존합니다. 이러한 특이성으로 인해 두 가지 문제가 발생합니다: (1) 정렬이 포괄적이지 않으며, 따라서 (2) 모델이 탈옥 공격에 취약해집니다. 이러한 문제를 해결하기 위해 우리는 어떻게 더 포괄적이고 다양한 대조 패턴을 구성하여 선호 데이터를 강화할지 조사하고 (RQ1) 대조 패턴의 다양화가 모델 정렬에 미치는 영향을 검증합니다 (RQ2). RQ1에 대해 우리는 추가 피드백 레이블링 절차가 필요하지 않는 여섯 가지 대조 전략을 도입하는 프롬프트, 모델 및 파이프라인 수준에서 다양한 대조 패턴을 통합하는 PopAlign이라는 프레임워크를 제안합니다. RQ2에 대해, 우리는 PopAlign이 기존 방법보다 훨씬 우수한 성능을 보여주어 더 포괄적인 정렬을 이끌어내는 것을 입증하는 철저한 실험을 수행합니다.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary