Lehren von Modellen, um Widerstand und Akzeptanz von Überzeugung in Balance zu halten.

Zusammenfassung

Große Sprachmodelle (LLMs) sind anfällig für Überredung, was Risiken darstellen kann, wenn die Modelle mit einem adversen Gesprächspartner konfrontiert werden. Wir gehen einen ersten Schritt in Richtung Verteidigung von Modellen gegen Überredung und argumentieren gleichzeitig, dass die Abwehr gegen adversative (d.h. negative) Überredung nur die eine Hälfte der Gleichung darstellt: Modelle sollten auch in der Lage sein, vorteilhafte (d.h. positive) Überredung anzunehmen, um ihre Antworten zu verbessern. Wir zeigen, dass die Optimierung von Modellen nur für eine Seite zu einer schlechten Leistung auf der anderen Seite führt. Um positive und negative Überredung auszugleichen, führen wir das Persuasion-Balanced Training (PBT) ein, das auf mehragentenrekursiven Dialogbäumen basiert, um Daten zu erzeugen und Modelle über Präferenzoptimierung zu trainieren, Überredung bei Bedarf anzunehmen. PBT verbessert konsistent die Resistenz gegen Fehlinformationen und die Widerstandsfähigkeit gegen Herausforderungen, während es auch die beste Gesamtleistung auf ganzheitlichen Daten erzielt, die sowohl positive als auch negative Überredung enthalten. Entscheidend ist, dass wir zeigen, dass PBT-Modelle bessere Teamkollegen in mehragenten Debatten sind. Wir stellen fest, dass ohne PBT Paare stärkerer und schwächerer Modelle eine instabile Leistung aufweisen, wobei die Reihenfolge, in der die Modelle ihre Antworten präsentieren, darüber entscheidet, ob das Team die Leistung des stärkeren oder schwächeren Modells erreicht. PBT führt zu besseren und stabileren Ergebnissen und weniger Abhängigkeit von der Reihenfolge, wobei das stärkere Modell das schwächere konsequent nach oben zieht.

English

Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Balanced Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates. We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model's performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.

Lehren von Modellen, um Widerstand und Akzeptanz von Überzeugung in Balance zu halten.

Teaching Models to Balance Resisting and Accepting Persuasion

Zusammenfassung

Support