Почему веб-агенты ИИ более уязвимы, чем автономные языковые модели? Анализ безопасности
Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis
February 27, 2025
Авторы: Jeffrey Yang Fan Chiang, Seungjae Lee, Jia-Bin Huang, Furong Huang, Yizheng Chen
cs.AI
Аннотация
Последние достижения в области веб-агентов с искусственным интеллектом продемонстрировали впечатляющие способности в решении сложных задач веб-навигации. Однако новые исследования показывают, что эти агенты проявляют большую уязвимость по сравнению с автономными большими языковыми моделями (LLM), несмотря на то, что и те, и другие построены на основе моделей, ориентированных на безопасность. Это расхождение вызывает особую обеспокоенность, учитывая большую гибкость веб-агентов ИИ по сравнению с автономными LLM, что может подвергать их более широкому спектру враждебных пользовательских воздействий. Для создания структуры, которая учитывает эти проблемы, данное исследование изучает основные факторы, способствующие повышенной уязвимости веб-агентов ИИ. В частности, это различие обусловлено многогранными различиями между веб-агентами ИИ и автономными LLM, а также сложными сигналами — нюансами, которые часто упускаются при использовании простых метрик оценки, таких как процент успешности. Для решения этих задач мы предлагаем анализ на уровне компонентов и более детальную, систематическую структуру оценки. Благодаря этому углубленному исследованию мы выявили три ключевых фактора, которые усиливают уязвимость веб-агентов ИИ: (1) встраивание целей пользователя в системный промпт, (2) генерация многошаговых действий и (3) наблюдательные способности. Наши результаты подчеркивают настоятельную необходимость повышения безопасности и устойчивости в проектировании агентов ИИ и предоставляют практические рекомендации для разработки целевых стратегий защиты.
English
Recent advancements in Web AI agents have demonstrated remarkable
capabilities in addressing complex web navigation tasks. However, emerging
research shows that these agents exhibit greater vulnerability compared to
standalone Large Language Models (LLMs), despite both being built upon the same
safety-aligned models. This discrepancy is particularly concerning given the
greater flexibility of Web AI Agent compared to standalone LLMs, which may
expose them to a wider range of adversarial user inputs. To build a scaffold
that addresses these concerns, this study investigates the underlying factors
that contribute to the increased vulnerability of Web AI agents. Notably, this
disparity stems from the multifaceted differences between Web AI agents and
standalone LLMs, as well as the complex signals - nuances that simple
evaluation metrics, such as success rate, often fail to capture. To tackle
these challenges, we propose a component-level analysis and a more granular,
systematic evaluation framework. Through this fine-grained investigation, we
identify three critical factors that amplify the vulnerability of Web AI
agents; (1) embedding user goals into the system prompt, (2) multi-step action
generation, and (3) observational capabilities. Our findings highlights the
pressing need to enhance security and robustness in AI agent design and provide
actionable insights for targeted defense strategies.Summary
AI-Generated Summary