Stai ottenendo ciò per cui paghi? Verifica della sostituzione dei modelli nelle API di LLM

Abstract

La proliferazione di Large Language Models (LLM) accessibili tramite API a scatola chiusa introduce una significativa sfida in termini di fiducia: gli utenti pagano per servizi basati sulle capacità pubblicizzate del modello (ad esempio, dimensioni, prestazioni), ma i fornitori potrebbero sostituire segretamente il modello specificato con un'alternativa più economica e di qualità inferiore per ridurre i costi operativi. Questa mancanza di trasparenza mina l'equità, erode la fiducia e complica il benchmarking affidabile. Rilevare tali sostituzioni è difficile a causa della natura a scatola chiusa, che tipicamente limita l'interazione a query di input-output. Questo articolo formalizza il problema del rilevamento delle sostituzioni di modelli nelle API di LLM. Valutiamo sistematicamente le tecniche di verifica esistenti, inclusi test statistici basati sull'output, valutazioni di benchmark e analisi delle probabilità logaritmiche, in vari scenari realistici di attacco come la quantizzazione del modello, la sostituzione randomizzata e l'evasione del benchmark. I nostri risultati rivelano i limiti dei metodi che si basano esclusivamente sugli output testuali, specialmente contro attacchi sottili o adattivi. Sebbene l'analisi delle probabilità logaritmiche offra garanzie più solide quando disponibile, la sua accessibilità è spesso limitata. Concludiamo discutendo il potenziale delle soluzioni basate su hardware come gli Ambienti di Esecuzione Fidati (TEE) come percorso verso l'integrità provabile del modello, evidenziando i compromessi tra sicurezza, prestazioni e adozione da parte dei fornitori. Il codice è disponibile all'indirizzo https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Stai ottenendo ciò per cui paghi? Verifica della sostituzione dei modelli nelle API di LLM

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Abstract

Summary

Support

Support