Het aanleren van modellen om weerstand en acceptatie van overtuiging in evenwicht te brengen.

Samenvatting

Grote taalmodellen (LLM's) zijn vatbaar voor beïnvloeding, wat risico's met zich mee kan brengen wanneer modellen te maken krijgen met een vijandige gesprekspartner. We zetten een eerste stap in de verdediging van modellen tegen beïnvloeding, terwijl we ook betogen dat verdediging tegen vijandige (d.w.z. negatieve) beïnvloeding slechts de helft van de vergelijking is: modellen zouden ook in staat moeten zijn om gunstige (d.w.z. positieve) beïnvloeding te accepteren om hun antwoorden te verbeteren. We tonen aan dat het optimaliseren van modellen voor slechts één kant leidt tot slechte prestaties aan de andere kant. Om positieve en negatieve beïnvloeding in evenwicht te brengen, introduceren we Persuasion-Balanced Training (of PBT), dat gebruikmaakt van multi-agent recursieve dialoogbomen om gegevens te genereren en modellen te trainen via voorkeursoptimalisatie om beïnvloeding te accepteren wanneer dat passend is. PBT verbetert consequent de weerstand tegen misinformatie en de veerkracht tegen uitdagingen, en resulteert ook in de beste algehele prestaties op holistische gegevens die zowel positieve als negatieve beïnvloeding bevatten. Cruciaal is dat we aantonen dat PBT-modellen betere teamgenoten zijn in multi-agent debatten. We ontdekken dat zonder PBT, paren van sterkere en zwakkere modellen instabiele prestaties hebben, waarbij de volgorde waarin de modellen hun antwoorden presenteren bepaalt of het team de prestaties van het sterkere of zwakkere model behaalt. PBT leidt tot betere en stabielere resultaten en minder afhankelijkheid van de volgorde, waarbij het sterkere model consequent het zwakkere model omhoog trekt.

English

Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Balanced Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates. We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model's performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.

Het aanleren van modellen om weerstand en acceptatie van overtuiging in evenwicht te brengen.

Teaching Models to Balance Resisting and Accepting Persuasion

Samenvatting

Summary

Support