Agente-SafetyBench: Avaliando a Segurança de Agentes LLM

Agent-SafetyBench: Evaluating the Safety of LLM Agents

December 19, 2024
Autores: Zhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang
cs.AI

Resumo

À medida que os grandes modelos de linguagem (LLMs) são cada vez mais implantados como agentes, sua integração em ambientes interativos e uso de ferramentas introduzem novos desafios de segurança além daqueles associados aos modelos em si. No entanto, a ausência de benchmarks abrangentes para avaliar a segurança do agente apresenta uma barreira significativa para uma avaliação eficaz e melhorias adicionais. Neste artigo, apresentamos o Agent-SafetyBench, um benchmark abrangente projetado para avaliar a segurança de agentes LLM. O Agent-SafetyBench abrange 349 ambientes de interação e 2.000 casos de teste, avaliando 8 categorias de riscos de segurança e cobrindo 10 modos de falha comuns frequentemente encontrados em interações inseguras. Nossa avaliação de 16 agentes LLM populares revela um resultado preocupante: nenhum dos agentes alcança uma pontuação de segurança acima de 60%. Isso destaca desafios significativos de segurança em agentes LLM e ressalta a necessidade considerável de melhorias. Através de análises quantitativas, identificamos modos críticos de falha e resumimos dois defeitos fundamentais de segurança nos agentes LLM atuais: falta de robustez e falta de consciência de risco. Além disso, nossas descobertas sugerem que a dependência apenas de prompts de defesa é insuficiente para lidar com essas questões de segurança, enfatizando a necessidade de estratégias mais avançadas e robustas. Disponibilizamos o Agent-SafetyBench em https://github.com/thu-coai/Agent-SafetyBench para facilitar pesquisas e inovações adicionais na avaliação e melhoria da segurança do agente.
English
As large language models (LLMs) are increasingly deployed as agents, their integration into interactive environments and tool use introduce new safety challenges beyond those associated with the models themselves. However, the absence of comprehensive benchmarks for evaluating agent safety presents a significant barrier to effective assessment and further improvement. In this paper, we introduce Agent-SafetyBench, a comprehensive benchmark designed to evaluate the safety of LLM agents. Agent-SafetyBench encompasses 349 interaction environments and 2,000 test cases, evaluating 8 categories of safety risks and covering 10 common failure modes frequently encountered in unsafe interactions. Our evaluation of 16 popular LLM agents reveals a concerning result: none of the agents achieves a safety score above 60%. This highlights significant safety challenges in LLM agents and underscores the considerable need for improvement. Through quantitative analysis, we identify critical failure modes and summarize two fundamental safety detects in current LLM agents: lack of robustness and lack of risk awareness. Furthermore, our findings suggest that reliance on defense prompts alone is insufficient to address these safety issues, emphasizing the need for more advanced and robust strategies. We release Agent-SafetyBench at https://github.com/thu-coai/Agent-SafetyBench to facilitate further research and innovation in agent safety evaluation and improvement.

Summary

AI-Generated Summary

PDF122December 24, 2024