Agente S2: Un Framework Composizionale Generalista-Specialista per Agenti di Utilizzo del Computer
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents
April 1, 2025
Autori: Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Abstract
Gli agenti di utilizzo del computer automatizzano le attività digitali interagendo direttamente con le interfacce grafiche utente (GUI) su computer e dispositivi mobili, offrendo un potenziale significativo per migliorare la produttività umana completando uno spazio aperto di richieste degli utenti. Tuttavia, gli agenti attuali affrontano sfide considerevoli: un'ancoraggio impreciso degli elementi GUI, difficoltà nella pianificazione di attività a lungo termine e colli di bottiglia nelle prestazioni dovuti all'uso di modelli generalisti singoli per compiti cognitivi diversi. A tal fine, introduciamo Agent S2, un nuovo framework composizionale che delega le responsabilità cognitive a vari modelli generalisti e specializzati. Proponiamo una nuova tecnica di Mixture-of-Grounding per ottenere una localizzazione precisa delle GUI e introduciamo la Pianificazione Gerarchica Proattiva, che affina dinamicamente i piani d'azione su più scale temporali in risposta a osservazioni in evoluzione. Le valutazioni dimostrano che Agent S2 stabilisce nuove prestazioni all'avanguardia (SOTA) su tre importanti benchmark di utilizzo del computer. In particolare, Agent S2 ottiene miglioramenti relativi del 18,9% e del 32,7% rispetto ai principali agenti di riferimento come Claude Computer Use e UI-TARS nelle valutazioni a 15 e 50 passi di OSWorld. Inoltre, Agent S2 si generalizza efficacemente ad altri sistemi operativi e applicazioni, superando i precedenti metodi migliori del 52,8% su WindowsAgentArena e del 16,52% su AndroidWorld in termini relativi. Il codice è disponibile all'indirizzo https://github.com/simular-ai/Agent-S.
English
Computer use agents automate digital tasks by directly interacting with
graphical user interfaces (GUIs) on computers and mobile devices, offering
significant potential to enhance human productivity by completing an open-ended
space of user queries. However, current agents face significant challenges:
imprecise grounding of GUI elements, difficulties with long-horizon task
planning, and performance bottlenecks from relying on single generalist models
for diverse cognitive tasks. To this end, we introduce Agent S2, a novel
compositional framework that delegates cognitive responsibilities across
various generalist and specialist models. We propose a novel
Mixture-of-Grounding technique to achieve precise GUI localization and
introduce Proactive Hierarchical Planning, dynamically refining action plans at
multiple temporal scales in response to evolving observations. Evaluations
demonstrate that Agent S2 establishes new state-of-the-art (SOTA) performance
on three prominent computer use benchmarks. Specifically, Agent S2 achieves
18.9% and 32.7% relative improvements over leading baseline agents such as
Claude Computer Use and UI-TARS on the OSWorld 15-step and 50-step evaluation.
Moreover, Agent S2 generalizes effectively to other operating systems and
applications, surpassing previous best methods by 52.8% on WindowsAgentArena
and by 16.52% on AndroidWorld relatively. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary