OS-ATLAS : Un modèle d'action fondamental pour les agents GUI généralistes
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Auteurs: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Résumé
Les efforts actuels pour construire des agents GUI reposent fortement sur la disponibilité de modèles Vision-Language commerciaux robustes (VLM) tels que GPT-4o et GeminiProVision. Les praticiens sont souvent réticents à utiliser des VLM open-source en raison de leur important retard de performance par rapport à leurs homologues en source fermée, notamment dans la localisation GUI et les scénarios Out-Of-Distribution (OOD). Pour faciliter les futures recherches dans ce domaine, nous avons développé OS-Atlas - un modèle d'action GUI fondamental qui excelle dans la localisation GUI et les tâches agentiques OOD grâce à des innovations à la fois dans les données et la modélisation. Nous avons investi des efforts d'ingénierie significatifs dans le développement d'une trousse à outils open-source pour la synthèse de données de localisation GUI sur plusieurs plateformes, y compris Windows, Linux, MacOS, Android et le web. En exploitant cette trousse à outils, nous publions le plus grand corpus de localisation GUI open-source multiplateforme à ce jour, qui contient plus de 13 millions d'éléments GUI. Ce jeu de données, combiné à des innovations dans l'entraînement du modèle, fournit une base solide pour OS-Atlas afin de comprendre les captures d'écran GUI et de généraliser à des interfaces non vues. À travers une évaluation approfondie sur six benchmarks couvrant trois plateformes différentes (mobile, bureau et web), OS-Atlas démontre des améliorations significatives de performance par rapport aux modèles de pointe précédents. Notre évaluation révèle également des informations précieuses pour améliorer et étendre en continu les capacités agentiques des VLM open-source.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary