OS-ATLAS: Un modello di azione di base per agenti GUI generalisti
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Autori: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Abstract
Gli sforzi attuali nella costruzione di agenti GUI si basano pesantemente sulla disponibilità di robusti Modelli Visione-Linguaggio commerciali (VLM) come GPT-4o e GeminiProVision. Gli operatori sono spesso riluttanti ad utilizzare VLM open-source a causa del significativo ritardo nelle prestazioni rispetto ai loro corrispettivi closed-source, in particolare nei casi di ancoraggio GUI e scenari Out-Of-Distribution (OOD). Per facilitare futura ricerca in questo ambito, abbiamo sviluppato OS-Atlas - un modello d'azione GUI fondamentale che eccelle in ancoraggio GUI e compiti agentici OOD attraverso innovazioni sia nei dati che nella modellazione. Abbiamo investito un notevole sforzo ingegneristico nello sviluppo di un toolkit open-source per la sintesi di dati di ancoraggio GUI su diverse piattaforme, tra cui Windows, Linux, MacOS, Android e il web. Sfruttando questo toolkit, stiamo rilasciando il più grande corpus di ancoraggio GUI open-source multi-piattaforma ad oggi, che contiene oltre 13 milioni di elementi GUI. Questo dataset, combinato con innovazioni nella formazione del modello, fornisce una solida base per OS-Atlas per comprendere screenshot GUI e generalizzare a interfacce non viste. Attraverso una valutazione estensiva su sei benchmark che coprono tre diverse piattaforme (mobile, desktop e web), OS-Atlas dimostra significativi miglioramenti delle prestazioni rispetto ai modelli state-of-the-art precedenti. La nostra valutazione rivela anche preziose intuizioni per migliorare continuamente e scalare le capacità agentiche dei VLM open-source.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary