Vérification du mise en cache des requêtes dans les APIs de modèles de langage

Résumé

La mise en cache des invites dans les grands modèles de langage (LLM) entraîne des variations de timing dépendantes des données : les invites mises en cache sont traitées plus rapidement que les invites non mises en cache. Ces différences de timing introduisent le risque d'attaques par canaux auxiliaires basés sur le timing. Par exemple, si le cache est partagé entre les utilisateurs, un attaquant pourrait identifier les invites mises en cache à partir des temps de réponse API rapides pour apprendre des informations sur les invites d'autres utilisateurs. Étant donné que la mise en cache des invites peut provoquer des fuites de confidentialité, la transparence autour des politiques de mise en cache des fournisseurs d'API est importante. À cette fin, nous développons et menons des audits statistiques pour détecter la mise en cache des invites chez les fournisseurs d'API de LLM du monde réel. Nous détectons le partage global du cache entre les utilisateurs dans sept fournisseurs d'API, y compris OpenAI, entraînant une fuite potentielle de la confidentialité concernant les invites des utilisateurs. Les variations de timing dues à la mise en cache des invites peuvent également entraîner une fuite d'informations sur l'architecture du modèle. En particulier, nous trouvons des preuves que le modèle d'incorporation d'OpenAI est un Transformer à décodeur uniquement, ce qui n'était pas connu publiquement auparavant.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Vérification du mise en cache des requêtes dans les APIs de modèles de langage

Auditing Prompt Caching in Language Model APIs

Résumé

Summary

Support

Support