모델에게 저항과 수용을 균형 있게 가르치는 방법
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
저자: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)은 설득에 취약할 수 있으며, 모델이 적대적 상대와 마주할 때 위험을 초래할 수 있습니다. 우리는 모델을 설득으로부터 방어하기 위한 첫 번째 단계를 밟으면서도, 적대적(즉, 부정적) 설득에 대한 방어는 방정식의 반만이라는 주장을 제시합니다. 모델은 자신의 답변을 개선하기 위해 유익한(즉, 긍정적) 설득을 수용할 수 있어야 합니다. 우리는 한 쪽만을 최적화하는 것이 다른 쪽에서 성능이 저하되는 것을 보여줍니다. 긍정적과 부정적 설득을 균형 있게 조절하기 위해 우리는 Persuasion-Balanced Training(PBT)을 소개합니다. 이는 다중 에이전트 재귀 대화 트리를 활용하여 데이터를 생성하고, 적절할 때 설득을 수용하도록 모델을 학습시키기 위해 선호도 최적화를 통해 모델을 훈련시킵니다. PBT는 잘못된 정보에 대한 저항력과 도전에 대한 탄력성을 지속적으로 향상시키며, 긍정적과 부정적 설득이 모두 포함된 종합 데이터에서 최고의 성능을 보여줍니다. 중요한 점은, PBT 모델이 다중 에이전트 토론에서 더 나은 팀원이라는 것을 입증합니다. PBT가 없으면, 강한 모델과 약한 모델의 쌍은 불안정한 성능을 보이며, 모델이 답변을 제시하는 순서에 따라 팀이 강한 모델의 성능을 얻을지 약한 모델의 성능을 얻을지가 결정됩니다. PBT는 더 나은 결과와 더 안정적인 결과를 이끌어내며, 순서 의존성이 줄어들고, 강한 모델이 지속적으로 약한 모델을 끌어올립니다.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary