Mithilfe mechanistischer Interpretierbarkeit zur Erstellung von Adversarial Attacks gegen große Sprachmodelle

Zusammenfassung

Traditionelle White-Box-Methoden zur Erzeugung von adversariellen Störungen gegen LLMs stützen sich typischerweise nur auf die Gradientenberechnung des Zielmodells und ignorieren dabei die internen Mechanismen, die für den Erfolg oder Misserfolg eines Angriffs verantwortlich sind. Im Gegensatz dazu fehlen Interpretierbarkeitsstudien, die diese internen Mechanismen analysieren, praktische Anwendungen über Laufzeitinterventionen hinaus. Wir schließen diese Lücke, indem wir einen neuartigen White-Box-Ansatz einführen, der mechanistische Interpretierbarkeitstechniken nutzt, um praktische adversarielle Eingaben zu erstellen. Konkret identifizieren wir zunächst Akzeptanzunterräume – Mengen von Feature-Vektoren, die die Ablehnungsmechanismen des Modells nicht auslösen – und verwenden dann gradientenbasierte Optimierung, um Embeddings von Ablehnungsunterräumen in Akzeptanzunterräume umzuleiten, wodurch effektiv Jailbreaks erreicht werden. Dieser gezielte Ansatz reduziert die Rechenkosten erheblich und erreicht Angriffserfolgsraten von 80-95\% bei state-of-the-art Modellen wie Gemma2, Llama3.2 und Qwen2.5 innerhalb von Minuten oder sogar Sekunden, im Vergleich zu bestehenden Techniken, die oft scheitern oder Stunden an Rechenzeit erfordern. Wir glauben, dass dieser Ansatz eine neue Richtung für sowohl Angriffsforschung als auch Verteidigungsentwicklung eröffnet. Darüber hinaus zeigt er eine praktische Anwendung der mechanistischen Interpretierbarkeit, bei der andere Methoden weniger effizient sind, was ihren Nutzen unterstreicht. Der Code und die generierten Datensätze sind unter https://github.com/Sckathach/subspace-rerouting verfügbar.

English

Traditional white-box methods for creating adversarial perturbations against LLMs typically rely only on gradient computation from the targeted model, ignoring the internal mechanisms responsible for attack success or failure. Conversely, interpretability studies that analyze these internal mechanisms lack practical applications beyond runtime interventions. We bridge this gap by introducing a novel white-box approach that leverages mechanistic interpretability techniques to craft practical adversarial inputs. Specifically, we first identify acceptance subspaces - sets of feature vectors that do not trigger the model's refusal mechanisms - then use gradient-based optimization to reroute embeddings from refusal subspaces to acceptance subspaces, effectively achieving jailbreaks. This targeted approach significantly reduces computation cost, achieving attack success rates of 80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5 within minutes or even seconds, compared to existing techniques that often fail or require hours of computation. We believe this approach opens a new direction for both attack research and defense development. Furthermore, it showcases a practical application of mechanistic interpretability where other methods are less efficient, which highlights its utility. The code and generated datasets are available at https://github.com/Sckathach/subspace-rerouting.

Mithilfe mechanistischer Interpretierbarkeit zur Erstellung von Adversarial Attacks gegen große Sprachmodelle

Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

Zusammenfassung

Summary

Support

Support