WebGames: Испытание для универсальных ИИ-агентов веб-браузинга

Аннотация

Мы представляем WebGames — комплексный набор тестов, предназначенный для оценки универсальных ИИ-агентов, работающих с веб-браузерами, через серию из 50+ интерактивных задач. Эти задачи специально разработаны так, чтобы быть простыми для людей, но при этом систематически проверять ограничения современных ИИ-систем в таких областях, как базовые взаимодействия с браузером, обработка сложных входных данных, когнитивные задачи, автоматизация рабочих процессов и интерактивные развлечения. Наша платформа устраняет внешние зависимости благодаря изолированной тестовой среде, обеспечивая воспроизводимую оценку с проверяемыми эталонными решениями. Мы тестируем ведущие модели, работающие с визуальными и текстовыми данными, включая GPT-4o, Claude Computer-Use, Gemini-1.5-Pro и Qwen2-VL, сравнивая их с результатами людей. Результаты показывают значительный разрыв в возможностях: лучшая ИИ-система достигает успеха лишь в 43,1% случаев по сравнению с 95,7% у людей, что подчеркивает фундаментальные ограничения современных ИИ-систем в обработке типичных веб-взаимодействий, которые люди считают интуитивными. Набор тестов доступен публично по адресу webgames.convergence.ai и предлагает легковесную клиентскую реализацию, которая способствует быстрым циклам оценки. Благодаря модульной архитектуре и стандартизированным спецификациям задач, WebGames предоставляет надежную основу для измерения прогресса в разработке более совершенных веб-браузерных агентов.

English

We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

WebGames: Испытание для универсальных ИИ-агентов веб-браузинга

WebGames: Challenging General-Purpose Web-Browsing AI Agents

Аннотация

Summary

Support