언어 모델 API에서 프롬프트 캐싱 감사
Auditing Prompt Caching in Language Model APIs
February 11, 2025
저자: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
초록
대형 언어 모델(LLM)에서의 프롬프트 캐싱은 데이터 종속적인 시간 변동을 초래합니다: 캐시된 프롬프트는 캐시되지 않은 프롬프트보다 빨리 처리됩니다. 이러한 시간 차이는 측면 채널 시간 공격의 위험을 초래합니다. 예를 들어, 캐시가 사용자 전체에 걸쳐 공유된 경우, 공격자는 빠른 API 응답 시간에서 캐시된 프롬프트를 식별하여 다른 사용자의 프롬프트에 대한 정보를 알아낼 수 있습니다. 프롬프트 캐싱으로 인해 개인 정보 누출이 발생할 수 있기 때문에 API 제공업체의 캐싱 정책에 대한 투명성이 중요합니다. 이를 위해 우리는 실제 LLM API 제공업체에서 프롬프트 캐싱을 탐지하기 위한 통계적 감사를 개발하고 실시합니다. 우리는 OpenAI를 포함한 일곱 개의 API 제공업체에서 사용자 간 전역 캐시 공유를 감지하여 사용자의 프롬프트에 대한 잠재적인 개인 정보 누출을 확인했습니다. 프롬프트 캐싱으로 인한 시간 변동은 모델 아키텍처에 대한 정보 누출로 이어질 수도 있습니다. 구체적으로, 우리는 OpenAI의 임베딩 모델이 디코더 전용 트랜스포머임을 발견했는데, 이는 이전에 공개되지 않았던 사실입니다.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary