Het stelen van gebruikersaanwijzingen van een mengeling van experts.

Stealing User Prompts from Mixture of Experts

October 30, 2024
Auteurs: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI

Samenvatting

Mixture-of-Experts (MoE) modellen verbeteren de efficiëntie en schaalbaarheid van dichte taalmodellen door elk token naar een klein aantal experts in elke laag te routeren. In dit artikel laten we zien hoe een tegenstander die ervoor kan zorgen dat hun vragen in dezelfde batch voorbeelden verschijnen als de vragen van een slachtoffer, Expert-Choice-Routing kan exploiteren om de volledige prompt van een slachtoffer bloot te leggen. We tonen succesvol de effectiviteit van deze aanval op een tweelaags Mixtral-model, waarbij we het gedrag van de torch.topk CUDA-implementatie voor het verwerken van gelijke waarden benutten. Onze resultaten tonen aan dat we de volledige prompt kunnen extraheren met O({VM}^2) vragen (met een woordenschatgrootte V en promptlengte M) of gemiddeld 100 vragen per token in de setting die we overwegen. Dit is de eerste aanval die architecturale zwakheden exploiteert met als doel het extraheren van gebruikersprompts, waarbij een nieuwe klasse van LLM-kwetsbaarheden wordt geïntroduceerd.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Summary

AI-Generated Summary

PDF132November 16, 2024