OS-ATLAS: Ein Grundlagen-Aktionsmodell für Generalist GUI-Agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
October 30, 2024
Autoren: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
cs.AI
Zusammenfassung
Bestehende Bemühungen beim Aufbau von GUI-Agenten stützen sich stark auf die Verfügbarkeit von robusten kommerziellen Vision-Sprach-Modellen (VLMs) wie GPT-4o und GeminiProVision. Praktiker zögern oft, Open-Source-VLMs zu verwenden, aufgrund ihrer signifikanten Leistungslücke im Vergleich zu ihren Closed-Source-Pendants, insbesondere bei der GUI-Verankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu erleichtern, haben wir OS-Atlas entwickelt - ein grundlegendes GUI-Aktionsmodell, das bei der GUI-Verankerung und OOD-Agentenaufgaben durch Innovationen in Daten und Modellierung hervorragende Leistungen erbringt. Wir haben erhebliche Ingenieuranstrengungen investiert, um ein Open-Source-Toolkit zur Synthese von GUI-Verankerungsdaten über mehrere Plattformen hinweg zu entwickeln, einschließlich Windows, Linux, MacOS, Android und dem Web. Unter Verwendung dieses Toolkits veröffentlichen wir das bisher größte Open-Source plattformübergreifende GUI-Verankerungskorpus, das über 13 Millionen GUI-Elemente enthält. Dieser Datensatz, kombiniert mit Innovationen im Modelltraining, bietet eine solide Grundlage für OS-Atlas, um GUI-Bildschirmfotos zu verstehen und auf nicht gesehene Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluation über sechs Benchmarks, die drei verschiedene Plattformen (mobil, Desktop und Web) umfassen, zeigt OS-Atlas signifikante Leistungsverbesserungen gegenüber früheren State-of-the-Art-Modellen. Unsere Evaluation enthüllt auch wertvolle Erkenntnisse zur kontinuierlichen Verbesserung und Skalierung der agentischen Fähigkeiten von Open-Source-VLMs.
English
Existing efforts in building GUI agents heavily rely on the availability of
robust commercial Vision-Language Models (VLMs) such as GPT-4o and
GeminiProVision. Practitioners are often reluctant to use open-source VLMs due
to their significant performance lag compared to their closed-source
counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD)
scenarios. To facilitate future research in this area, we developed OS-Atlas -
a foundational GUI action model that excels at GUI grounding and OOD agentic
tasks through innovations in both data and modeling. We have invested
significant engineering effort in developing an open-source toolkit for
synthesizing GUI grounding data across multiple platforms, including Windows,
Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing
the largest open-source cross-platform GUI grounding corpus to date, which
contains over 13 million GUI elements. This dataset, combined with innovations
in model training, provides a solid foundation for OS-Atlas to understand GUI
screenshots and generalize to unseen interfaces. Through extensive evaluation
across six benchmarks spanning three different platforms (mobile, desktop, and
web), OS-Atlas demonstrates significant performance improvements over previous
state-of-the-art models. Our evaluation also uncovers valuable insights into
continuously improving and scaling the agentic capabilities of open-source
VLMs.Summary
AI-Generated Summary