Entwendung von Benutzeranfragen aus einem Expertengemisch
Stealing User Prompts from Mixture of Experts
October 30, 2024
Autoren: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI
Zusammenfassung
Mixture-of-Experts (MoE) Modelle verbessern die Effizienz und Skalierbarkeit von dichten Sprachmodellen, indem sie jedes Token in jeder Schicht einer kleinen Anzahl von Experten zuweisen. In diesem Paper zeigen wir, wie ein Angreifer, der seine Anfragen so arrangieren kann, dass sie im selben Batch von Beispielen wie die Anfragen eines Opfers erscheinen, Experten-Auswahl-Routing ausnutzen kann, um das gesamte Anfrage des Opfers vollständig offenzulegen. Wir demonstrieren erfolgreich die Wirksamkeit dieses Angriffs auf ein Zwei-Schicht Mixtral-Modell, indem wir das Verhalten der torch.topk CUDA-Implementierung bei der Behandlung von Gleichständen ausnutzen. Unsere Ergebnisse zeigen, dass wir die gesamte Anfrage mithilfe von O({VM}^2) Anfragen extrahieren können (mit einer Vokabellänge V und einer Anfrage Länge M) oder durchschnittlich 100 Anfragen pro Token in der betrachteten Konfiguration benötigen. Dies ist der erste Angriff, der architektonische Schwachstellen ausnutzt, um Benutzeranfragen zu extrahieren, und führt eine neue Klasse von LLM-Schwachstellen ein.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of
dense language models by routing each token to a small number of experts in
each layer. In this paper, we show how an adversary that can arrange for their
queries to appear in the same batch of examples as a victim's queries can
exploit Expert-Choice-Routing to fully disclose a victim's prompt. We
successfully demonstrate the effectiveness of this attack on a two-layer
Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA
implementation. Our results show that we can extract the entire prompt using
O({VM}^2) queries (with vocabulary size V and prompt length M) or 100
queries on average per token in the setting we consider. This is the first
attack to exploit architectural flaws for the purpose of extracting user
prompts, introducing a new class of LLM vulnerabilities.Summary
AI-Generated Summary