Rubare gli input degli utenti da una miscela di esperti

Stealing User Prompts from Mixture of Experts

October 30, 2024
Autori: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI

Abstract

I modelli Mixture-of-Experts (MoE) migliorano l'efficienza e la scalabilità dei modelli linguistici densi instradando ciascun token a un piccolo numero di esperti in ciascuno strato. In questo articolo, mostriamo come un avversario che può organizzare affinché le proprie richieste appaiano nello stesso batch di esempi delle richieste di una vittima possa sfruttare il Routing della Scelta dell'Esperto per rivelare completamente la richiesta di una vittima. Dimostriamo con successo l'efficacia di questo attacco su un modello Mixtral a due strati, sfruttando il comportamento di gestione delle corrispondenze dell'implementazione CUDA di torch.topk. I nostri risultati mostrano che possiamo estrarre l'intera richiesta utilizzando O({VM}^2) richieste (con dimensione del vocabolario V e lunghezza della richiesta M) o 100 richieste in media per token nell'ambiente che consideriamo. Questo è il primo attacco a sfruttare difetti architetturali allo scopo di estrarre le richieste degli utenti, introducendo una nuova classe di vulnerabilità dei LLM.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Summary

AI-Generated Summary

PDF142November 16, 2024