Agente-SafetyBench: Avaliando a Segurança de Agentes LLM
Agent-SafetyBench: Evaluating the Safety of LLM Agents
December 19, 2024
Autores: Zhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang
cs.AI
Resumo
À medida que os grandes modelos de linguagem (LLMs) são cada vez mais implantados como agentes, sua integração em ambientes interativos e uso de ferramentas introduzem novos desafios de segurança além daqueles associados aos modelos em si. No entanto, a ausência de benchmarks abrangentes para avaliar a segurança do agente apresenta uma barreira significativa para uma avaliação eficaz e melhorias adicionais. Neste artigo, apresentamos o Agent-SafetyBench, um benchmark abrangente projetado para avaliar a segurança de agentes LLM. O Agent-SafetyBench abrange 349 ambientes de interação e 2.000 casos de teste, avaliando 8 categorias de riscos de segurança e cobrindo 10 modos de falha comuns frequentemente encontrados em interações inseguras. Nossa avaliação de 16 agentes LLM populares revela um resultado preocupante: nenhum dos agentes alcança uma pontuação de segurança acima de 60%. Isso destaca desafios significativos de segurança em agentes LLM e ressalta a necessidade considerável de melhorias. Através de análises quantitativas, identificamos modos críticos de falha e resumimos dois defeitos fundamentais de segurança nos agentes LLM atuais: falta de robustez e falta de consciência de risco. Além disso, nossas descobertas sugerem que a dependência apenas de prompts de defesa é insuficiente para lidar com essas questões de segurança, enfatizando a necessidade de estratégias mais avançadas e robustas. Disponibilizamos o Agent-SafetyBench em https://github.com/thu-coai/Agent-SafetyBench para facilitar pesquisas e inovações adicionais na avaliação e melhoria da segurança do agente.
English
As large language models (LLMs) are increasingly deployed as agents, their
integration into interactive environments and tool use introduce new safety
challenges beyond those associated with the models themselves. However, the
absence of comprehensive benchmarks for evaluating agent safety presents a
significant barrier to effective assessment and further improvement. In this
paper, we introduce Agent-SafetyBench, a comprehensive benchmark designed to
evaluate the safety of LLM agents. Agent-SafetyBench encompasses 349
interaction environments and 2,000 test cases, evaluating 8 categories of
safety risks and covering 10 common failure modes frequently encountered in
unsafe interactions. Our evaluation of 16 popular LLM agents reveals a
concerning result: none of the agents achieves a safety score above 60%. This
highlights significant safety challenges in LLM agents and underscores the
considerable need for improvement. Through quantitative analysis, we identify
critical failure modes and summarize two fundamental safety detects in current
LLM agents: lack of robustness and lack of risk awareness. Furthermore, our
findings suggest that reliance on defense prompts alone is insufficient to
address these safety issues, emphasizing the need for more advanced and robust
strategies. We release Agent-SafetyBench at
https://github.com/thu-coai/Agent-SafetyBench to facilitate further
research and innovation in agent safety evaluation and improvement.Summary
AI-Generated Summary