Vol de Suggestions d'Utilisateur à Partir d'un Mélange d'Experts

Stealing User Prompts from Mixture of Experts

October 30, 2024
Auteurs: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI

Résumé

Les modèles de Mélange d'Experts (MoE) améliorent l'efficacité et la scalabilité des modèles de langage denses en routant chaque jeton vers un petit nombre d'experts dans chaque couche. Dans cet article, nous montrons comment un adversaire qui peut organiser ses requêtes pour apparaître dans le même lot d'exemples que les requêtes d'une victime peut exploiter le Routage de Choix d'Experts pour révéler entièrement la requête de la victime. Nous démontrons avec succès l'efficacité de cette attaque sur un modèle Mixtral à deux couches, exploitant le comportement de gestion des liens de l'implémentation CUDA torch.topk. Nos résultats montrent que nous pouvons extraire l'intégralité de la requête en utilisant O({VM}^2) requêtes (avec une taille de vocabulaire V et une longueur de requête M) ou 100 requêtes en moyenne par jeton dans le cadre que nous considérons. Il s'agit de la première attaque exploitant les failles architecturales dans le but d'extraire des requêtes d'utilisateurs, introduisant une nouvelle classe de vulnérabilités des LLM.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Summary

AI-Generated Summary

PDF132November 16, 2024