ChatPaper.aiChatPaper

I LLM Possono Essere Persuatori Pericolosi: Studio Empirico sulla Sicurezza della Persuasione nei Modelli Linguistici di Grande Dimensione

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

April 14, 2025
Autori: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno permesso loro di avvicinarsi a capacità persuasive di livello umano. Tuttavia, tale potenziale solleva anche preoccupazioni riguardo ai rischi per la sicurezza legati alla persuasione guidata da LLM, in particolare il loro potenziale di influenza non etica attraverso manipolazione, inganno, sfruttamento di vulnerabilità e molte altre tattiche dannose. In questo lavoro, presentiamo un'indagine sistematica sulla sicurezza persuasiva degli LLM attraverso due aspetti critici: (1) se gli LLM rifiutano correttamente compiti persuasivi non etici ed evitano strategie non etiche durante l'esecuzione, inclusi i casi in cui l'obiettivo persuasivo iniziale appare eticamente neutro, e (2) come fattori influenzanti come tratti della personalità e pressioni esterne influenzano il loro comportamento. A tal fine, introduciamo PersuSafety, il primo framework completo per la valutazione della sicurezza persuasiva, che consiste in tre fasi: creazione della scena persuasiva, simulazione della conversazione persuasiva e valutazione della sicurezza persuasiva. PersuSafety copre 6 temi persuasivi non etici diversi e 15 strategie non etiche comuni. Attraverso esperimenti estesi su 8 LLM ampiamente utilizzati, osserviamo significative preoccupazioni di sicurezza nella maggior parte degli LLM, inclusa l'incapacità di identificare compiti persuasivi dannosi e l'utilizzo di varie strategie persuasive non etiche. Il nostro studio invita a prestare maggiore attenzione al miglioramento dell'allineamento alla sicurezza in conversazioni progressive e guidate da obiettivi, come la persuasione.
English
Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

Summary

AI-Generated Summary

PDF32April 15, 2025