ChatPaper.aiChatPaper

Bekämpfung von Prompt-Injektionen durch Design

Defeating Prompt Injections by Design

March 24, 2025
Autoren: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in agentenbasierten Systemen eingesetzt, die mit einer externen Umgebung interagieren. Allerdings sind LLM-Agenten anfällig für Prompt-Injection-Angriffe, wenn sie nicht vertrauenswürdige Daten verarbeiten. In diesem Artikel schlagen wir CaMeL vor, eine robuste Verteidigungsmaßnahme, die eine Schutzschicht um das LLM erzeugt und es selbst dann sichert, wenn die zugrunde liegenden Modelle anfällig für Angriffe sein könnten. Um zu funktionieren, extrahiert CaMeL explizit die Kontroll- und Datenflüsse aus der (vertrauenswürdigen) Anfrage; daher können die vom LLM abgerufenen nicht vertrauenswürdigen Daten niemals den Programmfluss beeinflussen. Um die Sicherheit weiter zu verbessern, stützt sich CaMeL auf das Konzept einer Fähigkeit, um die Exfiltration privater Daten über nicht autorisierte Datenflüsse zu verhindern. Wir demonstrieren die Wirksamkeit von CaMeL, indem wir 67 % der Aufgaben mit nachweisbarer Sicherheit in AgentDojo [NeurIPS 2024], einem aktuellen Benchmark für agentenbasierte Sicherheit, lösen.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

Summary

AI-Generated Summary

PDF181March 25, 2025