L'Ecosistema BrowserGym per la Ricerca sugli Agenti Web
The BrowserGym Ecosystem for Web Agent Research
December 6, 2024
Autori: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste
cs.AI
Abstract
L'ecosistema BrowserGym affronta la crescente necessità di valutare in modo efficiente e fare benchmark degli agenti web, in particolare di coloro che sfruttano l'automazione e i Grandi Modelli Linguistici (LLM) per compiti di interazione web. Molti benchmark esistenti soffrono di frammentazione e metodologie di valutazione inconsistenti, rendendo difficile ottenere confronti affidabili e risultati riproducibili. BrowserGym mira a risolvere questo problema fornendo un ambiente unificato simile a una palestra con spazi di osservazione e azione ben definiti, facilitando la valutazione standardizzata tra diversi benchmark. Combinato con AgentLab, un framework complementare che aiuta nella creazione, test e analisi degli agenti, BrowserGym offre flessibilità per integrare nuovi benchmark garantendo nel contempo una valutazione coerente e una gestione completa degli esperimenti. Questo approccio standardizzato mira a ridurre il tempo e la complessità nello sviluppo degli agenti web, supportando confronti più affidabili e agevolando un'analisi approfondita dei comportamenti degli agenti, potenzialmente portando a agenti più adattabili e capaci, accelerando così l'innovazione nell'automazione basata sui LLM. Come prova a supporto, conduciamo il primo esperimento su larga scala con agenti web multi-benchmark e confrontiamo le prestazioni di 6 LLM all'avanguardia su tutti i benchmark attualmente disponibili in BrowserGym. Tra le altre scoperte, i nostri risultati evidenziano una grande discrepanza tra i modelli più recenti di OpenAI e Anthropic, con Claude-3.5-Sonnet in testa su quasi tutti i benchmark, tranne che nei compiti legati alla visione dove GPT-4o è superiore. Nonostante questi progressi, i nostri risultati sottolineano che costruire agenti web robusti ed efficienti rimane una sfida significativa, a causa della complessità intrinseca degli ambienti web reali e dei limiti dei modelli attuali.
English
The BrowserGym ecosystem addresses the growing need for efficient evaluation
and benchmarking of web agents, particularly those leveraging automation and
Large Language Models (LLMs) for web interaction tasks. Many existing
benchmarks suffer from fragmentation and inconsistent evaluation methodologies,
making it challenging to achieve reliable comparisons and reproducible results.
BrowserGym aims to solve this by providing a unified, gym-like environment with
well-defined observation and action spaces, facilitating standardized
evaluation across diverse benchmarks. Combined with AgentLab, a complementary
framework that aids in agent creation, testing, and analysis, BrowserGym offers
flexibility for integrating new benchmarks while ensuring consistent evaluation
and comprehensive experiment management. This standardized approach seeks to
reduce the time and complexity of developing web agents, supporting more
reliable comparisons and facilitating in-depth analysis of agent behaviors, and
could result in more adaptable, capable agents, ultimately accelerating
innovation in LLM-driven automation. As a supporting evidence, we conduct the
first large-scale, multi-benchmark web agent experiment and compare the
performance of 6 state-of-the-art LLMs across all benchmarks currently
available in BrowserGym. Among other findings, our results highlight a large
discrepancy between OpenAI and Anthropic's latests models, with
Claude-3.5-Sonnet leading the way on almost all benchmarks, except on
vision-related tasks where GPT-4o is superior. Despite these advancements, our
results emphasize that building robust and efficient web agents remains a
significant challenge, due to the inherent complexity of real-world web
environments and the limitations of current models.Summary
AI-Generated Summary