X-Teaming: Multi-Turn Jailbreaks en Verdedigingen met Adaptieve Multi-Agenten
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
April 15, 2025
Auteurs: Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
cs.AI
Samenvatting
Meerzijdige interacties met taalmodelen (LMs) vormen kritieke veiligheidsrisico's, aangezien schadelijke intenties strategisch over meerdere uitwisselingen kunnen worden verspreid. Desondanks heeft het overgrote deel van eerder onderzoek zich gericht op veiligheid in enkelvoudige interacties, terwijl aanpassingsvermogen en diversiteit tot de belangrijkste uitdagingen blijven behoren bij meerzijdige red-teaming. Om deze uitdagingen aan te pakken, presenteren we X-Teaming, een schaalbaar raamwerk dat systematisch onderzoekt hoe schijnbaar onschuldige interacties escaleren naar schadelijke uitkomsten en daarbij bijbehorende aanvalsscenario's genereert. X-Teaming maakt gebruik van collaboratieve agents voor planning, aanvalsoptimalisatie en verificatie, en bereikt state-of-the-art effectiviteit en diversiteit bij meerzijdige jailbreaks, met slagingspercentages tot 98,1% over representatieve toonaangevende open-weight en closed-source modellen. In het bijzonder behaalt X-Teaming een aanvalssuccespercentage van 96,2% tegen het nieuwste Claude 3.7 Sonnet-model, dat als bijna immuun werd beschouwd voor enkelvoudige aanvallen. Op basis van X-Teaming introduceren we XGuard-Train, een open-source dataset voor meerzijdige veiligheidstraining die 20x groter is dan de vorige beste bron, bestaande uit 30K interactieve jailbreaks, ontworpen om robuuste meerzijdige veiligheidsafstemming voor LMs mogelijk te maken. Ons werk biedt essentiële tools en inzichten voor het mitigeren van geavanceerde conversatieaanvallen, en bevordert daarmee de meerzijdige veiligheid van LMs.
English
Multi-turn interactions with language models (LMs) pose critical safety
risks, as harmful intent can be strategically spread across exchanges. Yet, the
vast majority of prior work has focused on single-turn safety, while
adaptability and diversity remain among the key challenges of multi-turn
red-teaming. To address these challenges, we present X-Teaming, a scalable
framework that systematically explores how seemingly harmless interactions
escalate into harmful outcomes and generates corresponding attack scenarios.
X-Teaming employs collaborative agents for planning, attack optimization, and
verification, achieving state-of-the-art multi-turn jailbreak effectiveness and
diversity with success rates up to 98.1% across representative leading
open-weight and closed-source models. In particular, X-Teaming achieves a 96.2%
attack success rate against the latest Claude 3.7 Sonnet model, which has been
considered nearly immune to single-turn attacks. Building on X-Teaming, we
introduce XGuard-Train, an open-source multi-turn safety training dataset that
is 20x larger than the previous best resource, comprising 30K interactive
jailbreaks, designed to enable robust multi-turn safety alignment for LMs. Our
work offers essential tools and insights for mitigating sophisticated
conversational attacks, advancing the multi-turn safety of LMs.Summary
AI-Generated Summary