Sconfiggere le iniezioni di prompt attraverso il design
Defeating Prompt Injections by Design
March 24, 2025
Autori: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati in sistemi agentivi che interagiscono con un ambiente esterno. Tuttavia, gli agenti basati su LLM sono vulnerabili ad attacchi di iniezione di prompt quando gestiscono dati non attendibili. In questo articolo proponiamo CaMeL, una difesa robusta che crea uno strato protettivo attorno all'LLM, proteggendolo anche quando i modelli sottostanti potrebbero essere suscettibili ad attacchi. Per funzionare, CaMeL estrae esplicitamente i flussi di controllo e dati dalla query (attendibile); di conseguenza, i dati non attendibili recuperati dall'LLM non possono mai influenzare il flusso del programma. Per migliorare ulteriormente la sicurezza, CaMeL si basa sul concetto di capacità per prevenire l'esfiltrazione di dati privati attraverso flussi di dati non autorizzati. Dimostriamo l'efficacia di CaMeL risolvendo il 67% dei compiti con sicurezza dimostrabile in AgentDojo [NeurIPS 2024], un recente benchmark di sicurezza per sistemi agentivi.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment. However, LLM agents are vulnerable
to prompt injection attacks when handling untrusted data. In this paper we
propose CaMeL, a robust defense that creates a protective system layer around
the LLM, securing it even when underlying models may be susceptible to attacks.
To operate, CaMeL explicitly extracts the control and data flows from the
(trusted) query; therefore, the untrusted data retrieved by the LLM can never
impact the program flow. To further improve security, CaMeL relies on a notion
of a capability to prevent the exfiltration of private data over unauthorized
data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks
with provable security in AgentDojo [NeurIPS 2024], a recent agentic security
benchmark.Summary
AI-Generated Summary