WebGames: Испытание для универсальных ИИ-агентов веб-браузинга
WebGames: Challenging General-Purpose Web-Browsing AI Agents
February 25, 2025
Авторы: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI
Аннотация
Мы представляем WebGames — комплексный набор тестов, предназначенный для оценки универсальных ИИ-агентов, работающих с веб-браузерами, через серию из 50+ интерактивных задач. Эти задачи специально разработаны так, чтобы быть простыми для людей, но при этом систематически проверять ограничения современных ИИ-систем в таких областях, как базовые взаимодействия с браузером, обработка сложных входных данных, когнитивные задачи, автоматизация рабочих процессов и интерактивные развлечения. Наша платформа устраняет внешние зависимости благодаря изолированной тестовой среде, обеспечивая воспроизводимую оценку с проверяемыми эталонными решениями. Мы тестируем ведущие модели, работающие с визуальными и текстовыми данными, включая GPT-4o, Claude Computer-Use, Gemini-1.5-Pro и Qwen2-VL, сравнивая их с результатами людей. Результаты показывают значительный разрыв в возможностях: лучшая ИИ-система достигает успеха лишь в 43,1% случаев по сравнению с 95,7% у людей, что подчеркивает фундаментальные ограничения современных ИИ-систем в обработке типичных веб-взаимодействий, которые люди считают интуитивными. Набор тестов доступен публично по адресу webgames.convergence.ai и предлагает легковесную клиентскую реализацию, которая способствует быстрым циклам оценки. Благодаря модульной архитектуре и стандартизированным спецификациям задач, WebGames предоставляет надежную основу для измерения прогресса в разработке более совершенных веб-браузерных агентов.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate
general-purpose web-browsing AI agents through a collection of 50+ interactive
challenges. These challenges are specifically crafted to be straightforward for
humans while systematically testing the limitations of current AI systems
across fundamental browser interactions, advanced input processing, cognitive
tasks, workflow automation, and interactive entertainment. Our framework
eliminates external dependencies through a hermetic testing environment,
ensuring reproducible evaluation with verifiable ground-truth solutions. We
evaluate leading vision-language models including GPT-4o, Claude Computer-Use,
Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a
substantial capability gap, with the best AI system achieving only 43.1%
success rate compared to human performance of 95.7%, highlighting fundamental
limitations in current AI systems' ability to handle common web interaction
patterns that humans find intuitive. The benchmark is publicly available at
webgames.convergence.ai, offering a lightweight, client-side implementation
that facilitates rapid evaluation cycles. Through its modular architecture and
standardized challenge specifications, WebGames provides a robust foundation
for measuring progress in development of more capable web-browsing agents.Summary
AI-Generated Summary