Het aanleren van modellen om weerstand en acceptatie van overtuiging in evenwicht te brengen.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Auteurs: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Samenvatting
Grote taalmodellen (LLM's) zijn vatbaar voor beïnvloeding, wat risico's met zich mee kan brengen wanneer modellen te maken krijgen met een vijandige gesprekspartner. We zetten een eerste stap in de verdediging van modellen tegen beïnvloeding, terwijl we ook betogen dat verdediging tegen vijandige (d.w.z. negatieve) beïnvloeding slechts de helft van de vergelijking is: modellen zouden ook in staat moeten zijn om gunstige (d.w.z. positieve) beïnvloeding te accepteren om hun antwoorden te verbeteren. We tonen aan dat het optimaliseren van modellen voor slechts één kant leidt tot slechte prestaties aan de andere kant. Om positieve en negatieve beïnvloeding in evenwicht te brengen, introduceren we Persuasion-Balanced Training (of PBT), dat gebruikmaakt van multi-agent recursieve dialoogbomen om gegevens te genereren en modellen te trainen via voorkeursoptimalisatie om beïnvloeding te accepteren wanneer dat passend is. PBT verbetert consequent de weerstand tegen misinformatie en de veerkracht tegen uitdagingen, en resulteert ook in de beste algehele prestaties op holistische gegevens die zowel positieve als negatieve beïnvloeding bevatten. Cruciaal is dat we aantonen dat PBT-modellen betere teamgenoten zijn in multi-agent debatten. We ontdekken dat zonder PBT, paren van sterkere en zwakkere modellen instabiele prestaties hebben, waarbij de volgorde waarin de modellen hun antwoorden presenteren bepaalt of het team de prestaties van het sterkere of zwakkere model behaalt. PBT leidt tot betere en stabielere resultaten en minder afhankelijkheid van de volgorde, waarbij het sterkere model consequent het zwakkere model omhoog trekt.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary