Lehren von Modellen, um Widerstand und Akzeptanz von Überzeugung in Balance zu halten.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Autoren: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind anfällig für Überredung, was Risiken darstellen kann, wenn die Modelle mit einem adversen Gesprächspartner konfrontiert werden. Wir gehen einen ersten Schritt in Richtung Verteidigung von Modellen gegen Überredung und argumentieren gleichzeitig, dass die Abwehr gegen adversative (d.h. negative) Überredung nur die eine Hälfte der Gleichung darstellt: Modelle sollten auch in der Lage sein, vorteilhafte (d.h. positive) Überredung anzunehmen, um ihre Antworten zu verbessern. Wir zeigen, dass die Optimierung von Modellen nur für eine Seite zu einer schlechten Leistung auf der anderen Seite führt. Um positive und negative Überredung auszugleichen, führen wir das Persuasion-Balanced Training (PBT) ein, das auf mehragentenrekursiven Dialogbäumen basiert, um Daten zu erzeugen und Modelle über Präferenzoptimierung zu trainieren, Überredung bei Bedarf anzunehmen. PBT verbessert konsistent die Resistenz gegen Fehlinformationen und die Widerstandsfähigkeit gegen Herausforderungen, während es auch die beste Gesamtleistung auf ganzheitlichen Daten erzielt, die sowohl positive als auch negative Überredung enthalten. Entscheidend ist, dass wir zeigen, dass PBT-Modelle bessere Teamkollegen in mehragenten Debatten sind. Wir stellen fest, dass ohne PBT Paare stärkerer und schwächerer Modelle eine instabile Leistung aufweisen, wobei die Reihenfolge, in der die Modelle ihre Antworten präsentieren, darüber entscheidet, ob das Team die Leistung des stärkeren oder schwächeren Modells erreicht. PBT führt zu besseren und stabileren Ergebnissen und weniger Abhängigkeit von der Reihenfolge, wobei das stärkere Modell das schwächere konsequent nach oben zieht.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary