Progent: Programmeerbaar Privilegebeheer voor LLM-agenten
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Auteurs: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Samenvatting
LLM-agents zijn een opkomende vorm van AI-systemen waarbij grote taalmodellen (LLM's) als centrale component fungeren, waarbij ze gebruikmaken van een diverse set tools om door gebruikers toegewezen taken uit te voeren. Ondanks hun grote potentieel brengen LLM-agents aanzienlijke beveiligingsrisico's met zich mee. Bij interactie met de externe wereld kunnen ze kwaadaardige commando's van aanvallers tegenkomen, wat kan leiden tot het uitvoeren van gevaarlijke acties. Een veelbelovende manier om dit aan te pakken is door het principe van minimale rechten toe te passen: alleen essentiële acties voor taakvoltooiing toestaan, terwijl onnodige acties worden geblokkeerd. Het bereiken hiervan is echter uitdagend, omdat het diverse agentscenario's moet dekken terwijl zowel beveiliging als functionaliteit behouden blijven.
We introduceren Progent, het eerste privilegecontrolemechanisme voor LLM-agents. De kern ervan bestaat uit een domeinspecifieke taal voor het flexibel uitdrukken van privilegecontrolebeleid dat wordt toegepast tijdens de uitvoering van de agent. Dit beleid biedt gedetailleerde beperkingen voor toolaanroepen, bepaalt wanneer toolaanroepen zijn toegestaan en specificeert fallbacks als dit niet het geval is. Hierdoor kunnen agentontwikkelaars en gebruikers geschikt beleid voor hun specifieke use cases opstellen en dit deterministisch afdwingen om beveiliging te garanderen. Dankzij het modulaire ontwerp verandert de integratie van Progent de interne werking van de agent niet en zijn slechts minimale wijzigingen aan de implementatie van de agent nodig, wat de praktische bruikbaarheid en het potentieel voor brede adoptie vergroot. Om het schrijven van beleid te automatiseren, maken we gebruik van LLM's om beleid te genereren op basis van gebruikersvragen, dat vervolgens dynamisch wordt bijgewerkt voor verbeterde beveiliging en functionaliteit. Onze uitgebreide evaluatie toont aan dat het sterke beveiliging mogelijk maakt terwijl hoge functionaliteit behouden blijft in drie verschillende scenario's of benchmarks: AgentDojo, ASB en AgentPoison. Bovendien voeren we een diepgaande analyse uit, waarin de effectiviteit van de kerncomponenten en de veerkracht van de geautomatiseerde beleidsgeneratie tegen adaptieve aanvallen worden gedemonstreerd.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary