OS-ATLAS: Een Fundamenteel Actiemodel voor Algemene GUI-agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Auteurs: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Samenvatting
Bestaande inspanningen om GUI-agenten te bouwen zijn sterk afhankelijk van de beschikbaarheid van robuuste commerciële Vision-Language Modellen (VLM's) zoals GPT-4o en GeminiProVision. Praktijkmensen zijn vaak terughoudend om open-source VLM's te gebruiken vanwege hun aanzienlijke prestatieverschil in vergelijking met hun gesloten-source tegenhangers, met name in GUI-gronding en Out-Of-Distribution (OOD) scenario's. Om toekomstig onderzoek op dit gebied te vergemakkelijken, hebben we OS-Atlas ontwikkeld - een fundamenteel GUI-actiemodel dat uitblinkt in GUI-gronding en OOD-agenttaken door innovaties in zowel data als modellering. We hebben aanzienlijke technische inspanningen geïnvesteerd in het ontwikkelen van een open-source toolkit voor het synthetiseren van GUI-grondingsdata over meerdere platforms, waaronder Windows, Linux, MacOS, Android en het web. Door gebruik te maken van deze toolkit, brengen we het grootste open-source cross-platform GUI-grondingscorpus tot nu toe uit, dat meer dan 13 miljoen GUI-elementen bevat. Deze dataset, gecombineerd met innovaties in modeltraining, biedt een solide basis voor OS-Atlas om GUI-screenshots te begrijpen en te generaliseren naar ongeziene interfaces. Door uitgebreide evaluatie over zes benchmarks die drie verschillende platforms bestrijken (mobiel, desktop en web), toont OS-Atlas aanzienlijke prestatieverbeteringen ten opzichte van eerdere state-of-the-art modellen. Onze evaluatie onthult ook waardevolle inzichten in het voortdurend verbeteren en schalen van de agentcapaciteiten van open-source VLM's.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary