Enseigner aux modèles à équilibrer la résistance et l'acceptation de la persuasion.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Auteurs: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont susceptibles d'être persuadés, ce qui peut poser des risques lorsque les modèles sont confrontés à un interlocuteur adversaire. Nous faisons un premier pas vers la défense des modèles contre la persuasion tout en soutenant également que la défense contre la persuasion adversaire (c'est-à-dire négative) n'est que la moitié de l'équation : les modèles devraient également être capables d'accepter la persuasion bénéfique (c'est-à-dire positive) pour améliorer leurs réponses. Nous montrons qu'optimiser les modèles pour un seul côté entraîne de mauvaises performances de l'autre côté. Afin d'équilibrer la persuasion positive et négative, nous introduisons l'Entraînement Équilibré par la Persuasion (ou PBT), qui exploite des arbres de dialogue récursifs multi-agents pour créer des données et entraîner les modèles via l'optimisation des préférences pour accepter la persuasion lorsque c'est approprié. Le PBT améliore de manière constante la résistance à la désinformation et la résilience face aux défis tout en donnant les meilleures performances globales sur des données holistiques contenant à la fois de la persuasion positive et négative. De manière cruciale, nous montrons que les modèles PBT sont de meilleurs coéquipiers dans les débats multi-agents. Nous constatons qu'en l'absence de PBT, les paires de modèles plus forts et plus faibles ont des performances instables, l'ordre dans lequel les modèles présentent leurs réponses déterminant si l'équipe obtient les performances du modèle le plus fort ou du plus faible. Le PBT conduit à de meilleurs résultats plus stables et moins dépendants de l'ordre, le modèle plus fort tirant systématiquement vers le haut le plus faible.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary