UI-TARS : Interaction automatisée révolutionnaire avec des agents natifs de l'interface utilisateur graphique
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
January 21, 2025
Auteurs: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, Wanjun Zhong, Kuanye Li, Jiale Yang, Yu Miao, Woyu Lin, Longxiang Liu, Xu Jiang, Qianli Ma, Jingyu Li, Xiaojun Xiao, Kai Cai, Chuang Li, Yaowei Zheng, Chaolin Jin, Chen Li, Xiao Zhou, Minchao Wang, Haoli Chen, Zhaojian Li, Haihua Yang, Haifeng Liu, Feng Lin, Tao Peng, Xin Liu, Guang Shi
cs.AI
Résumé
Cet article présente UI-TARS, un modèle d'agent GUI natif qui perçoit uniquement les captures d'écran en entrée et effectue des interactions semblables à celles des humains (par exemple, des opérations au clavier et à la souris). Contrairement aux cadres d'agents prédominants qui dépendent fortement de modèles commerciaux fortement encapsulés (par exemple, GPT-4o) avec des invites et des flux de travail expertement conçus, UI-TARS est un modèle de bout en bout qui surpasse ces cadres sophistiqués. Les expériences démontrent ses performances supérieures : UI-TARS atteint des performances de pointe dans plus de 10 benchmarks d'agents GUI évaluant la perception, l'ancrage et l'exécution des tâches GUI. Notamment, dans le benchmark OSWorld, UI-TARS obtient des scores de 24,6 avec 50 étapes et de 22,7 avec 15 étapes, surpassant Claude (22,0 et 14,9 respectivement). Dans AndroidWorld, UI-TARS atteint 46,6, dépassant GPT-4o (34,5). UI-TARS intègre plusieurs innovations clés : (1) Perception Améliorée : en tirant parti d'un ensemble de données à grande échelle de captures d'écran GUI pour une compréhension contextuelle des éléments GUI et une légende précise ; (2) Modélisation d'Action Unifiée, qui normalise les actions dans un espace unifié à travers les plateformes et atteint un ancrage précis et une interaction à travers des traces d'actions à grande échelle ; (3) Raisonnement Système-2, qui intègre un raisonnement délibéré dans la prise de décision en plusieurs étapes, impliquant plusieurs schémas de raisonnement tels que la décomposition des tâches, la réflexion, la reconnaissance des étapes, etc. ; (4) Entraînement Itératif avec Traces Réfléchies en Ligne, qui aborde le goulot d'étranglement des données en collectant automatiquement, en filtrant et en affinant de manière réfléchie de nouvelles traces d'interaction sur des centaines de machines virtuelles. Grâce à l'entraînement itératif et à l'ajustement réfléchi, UI-TARS apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale. Nous analysons également le chemin d'évolution des agents GUI pour guider le développement ultérieur de ce domaine.
English
This paper introduces UI-TARS, a native GUI agent model that solely perceives
the screenshots as input and performs human-like interactions (e.g., keyboard
and mouse operations). Unlike prevailing agent frameworks that depend on
heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts
and workflows, UI-TARS is an end-to-end model that outperforms these
sophisticated frameworks. Experiments demonstrate its superior performance:
UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating
perception, grounding, and GUI task execution. Notably, in the OSWorld
benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15
steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld,
UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several
key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of
GUI screenshots for context-aware understanding of UI elements and precise
captioning; (2) Unified Action Modeling, which standardizes actions into a
unified space across platforms and achieves precise grounding and interaction
through large-scale action traces; (3) System-2 Reasoning, which incorporates
deliberate reasoning into multi-step decision making, involving multiple
reasoning patterns such as task decomposition, reflection thinking, milestone
recognition, etc. (4) Iterative Training with Reflective Online Traces, which
addresses the data bottleneck by automatically collecting, filtering, and
reflectively refining new interaction traces on hundreds of virtual machines.
Through iterative training and reflection tuning, UI-TARS continuously learns
from its mistakes and adapts to unforeseen situations with minimal human
intervention. We also analyze the evolution path of GUI agents to guide the
further development of this domain.Summary
AI-Generated Summary