Vérification du mise en cache des requêtes dans les APIs de modèles de langage
Auditing Prompt Caching in Language Model APIs
February 11, 2025
Auteurs: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
Résumé
La mise en cache des invites dans les grands modèles de langage (LLM) entraîne des variations de timing dépendantes des données : les invites mises en cache sont traitées plus rapidement que les invites non mises en cache. Ces différences de timing introduisent le risque d'attaques par canaux auxiliaires basés sur le timing. Par exemple, si le cache est partagé entre les utilisateurs, un attaquant pourrait identifier les invites mises en cache à partir des temps de réponse API rapides pour apprendre des informations sur les invites d'autres utilisateurs. Étant donné que la mise en cache des invites peut provoquer des fuites de confidentialité, la transparence autour des politiques de mise en cache des fournisseurs d'API est importante. À cette fin, nous développons et menons des audits statistiques pour détecter la mise en cache des invites chez les fournisseurs d'API de LLM du monde réel. Nous détectons le partage global du cache entre les utilisateurs dans sept fournisseurs d'API, y compris OpenAI, entraînant une fuite potentielle de la confidentialité concernant les invites des utilisateurs. Les variations de timing dues à la mise en cache des invites peuvent également entraîner une fuite d'informations sur l'architecture du modèle. En particulier, nous trouvons des preuves que le modèle d'incorporation d'OpenAI est un Transformer à décodeur uniquement, ce qui n'était pas connu publiquement auparavant.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary