Progent: Programmeerbaar Privilegebeheer voor LLM-agenten

Samenvatting

LLM-agents zijn een opkomende vorm van AI-systemen waarbij grote taalmodellen (LLM's) als centrale component fungeren, waarbij ze gebruikmaken van een diverse set tools om door gebruikers toegewezen taken uit te voeren. Ondanks hun grote potentieel brengen LLM-agents aanzienlijke beveiligingsrisico's met zich mee. Bij interactie met de externe wereld kunnen ze kwaadaardige commando's van aanvallers tegenkomen, wat kan leiden tot het uitvoeren van gevaarlijke acties. Een veelbelovende manier om dit aan te pakken is door het principe van minimale rechten toe te passen: alleen essentiële acties voor taakvoltooiing toestaan, terwijl onnodige acties worden geblokkeerd. Het bereiken hiervan is echter uitdagend, omdat het diverse agentscenario's moet dekken terwijl zowel beveiliging als functionaliteit behouden blijven. We introduceren Progent, het eerste privilegecontrolemechanisme voor LLM-agents. De kern ervan bestaat uit een domeinspecifieke taal voor het flexibel uitdrukken van privilegecontrolebeleid dat wordt toegepast tijdens de uitvoering van de agent. Dit beleid biedt gedetailleerde beperkingen voor toolaanroepen, bepaalt wanneer toolaanroepen zijn toegestaan en specificeert fallbacks als dit niet het geval is. Hierdoor kunnen agentontwikkelaars en gebruikers geschikt beleid voor hun specifieke use cases opstellen en dit deterministisch afdwingen om beveiliging te garanderen. Dankzij het modulaire ontwerp verandert de integratie van Progent de interne werking van de agent niet en zijn slechts minimale wijzigingen aan de implementatie van de agent nodig, wat de praktische bruikbaarheid en het potentieel voor brede adoptie vergroot. Om het schrijven van beleid te automatiseren, maken we gebruik van LLM's om beleid te genereren op basis van gebruikersvragen, dat vervolgens dynamisch wordt bijgewerkt voor verbeterde beveiliging en functionaliteit. Onze uitgebreide evaluatie toont aan dat het sterke beveiliging mogelijk maakt terwijl hoge functionaliteit behouden blijft in drie verschillende scenario's of benchmarks: AgentDojo, ASB en AgentPoison. Bovendien voeren we een diepgaande analyse uit, waarin de effectiviteit van de kerncomponenten en de veerkracht van de geautomatiseerde beleidsgeneratie tegen adaptieve aanvallen worden gedemonstreerd.

English

LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.

Progent: Programmeerbaar Privilegebeheer voor LLM-agenten

Progent: Programmable Privilege Control for LLM Agents

Samenvatting

Summary

Support

Support