OS-ATLAS: Un modello di azione di base per agenti GUI generalisti

Abstract

Gli sforzi attuali nella costruzione di agenti GUI si basano pesantemente sulla disponibilità di robusti Modelli Visione-Linguaggio commerciali (VLM) come GPT-4o e GeminiProVision. Gli operatori sono spesso riluttanti ad utilizzare VLM open-source a causa del significativo ritardo nelle prestazioni rispetto ai loro corrispettivi closed-source, in particolare nei casi di ancoraggio GUI e scenari Out-Of-Distribution (OOD). Per facilitare futura ricerca in questo ambito, abbiamo sviluppato OS-Atlas - un modello d'azione GUI fondamentale che eccelle in ancoraggio GUI e compiti agentici OOD attraverso innovazioni sia nei dati che nella modellazione. Abbiamo investito un notevole sforzo ingegneristico nello sviluppo di un toolkit open-source per la sintesi di dati di ancoraggio GUI su diverse piattaforme, tra cui Windows, Linux, MacOS, Android e il web. Sfruttando questo toolkit, stiamo rilasciando il più grande corpus di ancoraggio GUI open-source multi-piattaforma ad oggi, che contiene oltre 13 milioni di elementi GUI. Questo dataset, combinato con innovazioni nella formazione del modello, fornisce una solida base per OS-Atlas per comprendere screenshot GUI e generalizzare a interfacce non viste. Attraverso una valutazione estensiva su sei benchmark che coprono tre diverse piattaforme (mobile, desktop e web), OS-Atlas dimostra significativi miglioramenti delle prestazioni rispetto ai modelli state-of-the-art precedenti. La nostra valutazione rivela anche preziose intuizioni per migliorare continuamente e scalare le capacità agentiche dei VLM open-source.

English

Existing efforts in building GUI agents heavily rely on the availability of robust commercial Vision-Language Models (VLMs) such as GPT-4o and GeminiProVision. Practitioners are often reluctant to use open-source VLMs due to their significant performance lag compared to their closed-source counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD) scenarios. To facilitate future research in this area, we developed OS-Atlas - a foundational GUI action model that excels at GUI grounding and OOD agentic tasks through innovations in both data and modeling. We have invested significant engineering effort in developing an open-source toolkit for synthesizing GUI grounding data across multiple platforms, including Windows, Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing the largest open-source cross-platform GUI grounding corpus to date, which contains over 13 million GUI elements. This dataset, combined with innovations in model training, provides a solid foundation for OS-Atlas to understand GUI screenshots and generalize to unseen interfaces. Through extensive evaluation across six benchmarks spanning three different platforms (mobile, desktop, and web), OS-Atlas demonstrates significant performance improvements over previous state-of-the-art models. Our evaluation also uncovers valuable insights into continuously improving and scaling the agentic capabilities of open-source VLMs.

OS-ATLAS: Un modello di azione di base per agenti GUI generalisti

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Abstract

Summary

Support