PopAlign: Diversifiëren van Contrasterende Patronen voor een Meer Omvattende Afstemming
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Auteurs: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Samenvatting
Het afstemmen van grote taalmodellen (LLM's) omvat het trainen van modellen op voorkeurs-tegenstrijdige uitvoerparen om hun reacties aan te passen volgens menselijke voorkeuren. Om dergelijke tegenstrijdige paren te verkrijgen, vertrouwen traditionele methoden zoals RLHF en RLAIF op beperkte tegenstrijdige patronen, zoals variërende modelvarianten of decoderingstemperaturen. Deze singulariteit leidt tot twee problemen: (1) de afstemming is niet alomvattend; en daardoor (2) zijn modellen vatbaar voor jailbreaking-aanvallen. Om deze problemen aan te pakken, onderzoeken we hoe we meer alomvattende en gediversifieerde tegenstrijdige patronen kunnen construeren om de voorkeursgegevens te verbeteren (RQ1) en verifiëren we de impact van de diversificatie van tegenstrijdige patronen op de modelafstemming (RQ2). Voor RQ1 stellen we PopAlign voor, een raamwerk dat gediversifieerde tegenstrijdige patronen integreert over de prompt-, model- en pipeline-niveaus, waarbij zes tegenstrijdige strategieën worden geïntroduceerd die geen aanvullende feedbacklabelingsprocedures vereisen. Wat betreft RQ2 voeren we grondige experimenten uit waaruit blijkt dat PopAlign aanzienlijk beter presteert dan bestaande methoden, wat leidt tot een meer alomvattende afstemming.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary