Хранители Агентичной Системы: Предотвращение Побега из Многозадачной Системы с Агентичной Системой
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Авторы: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Аннотация
Автономные искусственные интеллектуальные агенты, использующие большие языковые модели, могут создавать неоспоримые ценности во всех сферах общества, но они сталкиваются с угрозами безопасности со стороны противников, что требует немедленных защитных решений из-за возникающих проблем доверия и безопасности. Рассмотрение многократного обхода защиты и обманчивой согласованности как некоторых из основных продвинутых атак, которые нельзя смягчить статическими ограждениями, используемыми во время наблюдаемого обучения, указывает на важное исследовательское приоритетное направление для обеспечения реальной устойчивости. Комбинация статических ограждений в динамической многоагентной системе не способна защитить от таких атак. Мы намерены улучшить безопасность для агентов на основе крупных языковых моделей через разработку новых критериев оценки, которые выявляют и противодействуют угрозам для безопасного оперативного внедрения. Наша работа использует три метода экспертизы для обнаружения подлоговых агентов через обратный тест Тьюринга и анализ обманчивой согласованности через многоагентные симуляции, а также разрабатывает систему против обхода защиты, тестируя ее с использованием сценариев атак средствами инструментальной агрессии на моделях GEMINI 1.5 pro и llama-3.3-70B, deepseek r1. Возможности обнаружения сильны, такие как 94\% точность для GEMINI 1.5 pro, однако система страдает от постоянных уязвимостей при длительных атаках, поскольку увеличение длины запроса увеличивает показатели успешности атак (ASR), а метрики разнообразия становятся неэффективными в прогнозировании, выявляя при этом множество сложных системных ошибок. Полученные результаты демонстрируют необходимость принятия гибких систем безопасности на основе активного мониторинга, который может быть осуществлен самими агентами вместе с адаптивными вмешательствами системного администратора, поскольку текущие модели могут создавать уязвимости, которые могут привести к ненадежной и уязвимой системе. Таким образом, в нашей работе мы пытаемся решить подобные ситуации и предлагаем комплексную структуру для противодействия проблемам безопасности.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary