Mithilfe mechanistischer Interpretierbarkeit zur Erstellung von Adversarial Attacks gegen große Sprachmodelle
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Autoren: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Zusammenfassung
Traditionelle White-Box-Methoden zur Erzeugung von adversariellen Störungen gegen LLMs stützen sich typischerweise nur auf die Gradientenberechnung des Zielmodells und ignorieren dabei die internen Mechanismen, die für den Erfolg oder Misserfolg eines Angriffs verantwortlich sind. Im Gegensatz dazu fehlen Interpretierbarkeitsstudien, die diese internen Mechanismen analysieren, praktische Anwendungen über Laufzeitinterventionen hinaus. Wir schließen diese Lücke, indem wir einen neuartigen White-Box-Ansatz einführen, der mechanistische Interpretierbarkeitstechniken nutzt, um praktische adversarielle Eingaben zu erstellen. Konkret identifizieren wir zunächst Akzeptanzunterräume – Mengen von Feature-Vektoren, die die Ablehnungsmechanismen des Modells nicht auslösen – und verwenden dann gradientenbasierte Optimierung, um Embeddings von Ablehnungsunterräumen in Akzeptanzunterräume umzuleiten, wodurch effektiv Jailbreaks erreicht werden. Dieser gezielte Ansatz reduziert die Rechenkosten erheblich und erreicht Angriffserfolgsraten von 80-95\% bei state-of-the-art Modellen wie Gemma2, Llama3.2 und Qwen2.5 innerhalb von Minuten oder sogar Sekunden, im Vergleich zu bestehenden Techniken, die oft scheitern oder Stunden an Rechenzeit erfordern. Wir glauben, dass dieser Ansatz eine neue Richtung für sowohl Angriffsforschung als auch Verteidigungsentwicklung eröffnet. Darüber hinaus zeigt er eine praktische Anwendung der mechanistischen Interpretierbarkeit, bei der andere Methoden weniger effizient sind, was ihren Nutzen unterstreicht. Der Code und die generierten Datensätze sind unter https://github.com/Sckathach/subspace-rerouting verfügbar.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary