UI-TARS: Baanbrekende Geautomatiseerde GUI-interactie met Native Agents
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
January 21, 2025
Auteurs: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, Wanjun Zhong, Kuanye Li, Jiale Yang, Yu Miao, Woyu Lin, Longxiang Liu, Xu Jiang, Qianli Ma, Jingyu Li, Xiaojun Xiao, Kai Cai, Chuang Li, Yaowei Zheng, Chaolin Jin, Chen Li, Xiao Zhou, Minchao Wang, Haoli Chen, Zhaojian Li, Haihua Yang, Haifeng Liu, Feng Lin, Tao Peng, Xin Liu, Guang Shi
cs.AI
Samenvatting
Dit artikel introduceert UI-TARS, een model van een native GUI-agent dat uitsluitend schermafbeeldingen als invoer waarneemt en mensachtige interacties uitvoert (bijv. toetsenbord- en muisbewerkingen). In tegenstelling tot gangbare agentframeworks die sterk afhankelijk zijn van zwaar omwikkelde commerciële modellen (bijv. GPT-4o) met door experts vervaardigde prompts en workflows, is UI-TARS een end-to-end model dat deze geavanceerde frameworks overtreft. Experimenten tonen zijn superieure prestaties aan: UI-TARS behaalt SOTA-prestaties in meer dan 10 GUI-agenttests die perceptie, gronding en GUI-taakuitvoering evalueren. Opmerkelijk is dat in de OSWorld-test behaalt UI-TARS scores van 24.6 met 50 stappen en 22.7 met 15 stappen, waarbij Claude (respectievelijk 22.0 en 14.9) wordt overtroffen. In AndroidWorld behaalt UI-TARS 46.6, wat GPT-4o (34.5) overtreft. UI-TARS omvat verschillende belangrijke innovaties: (1) Verbeterde Perceptie: het benutten van een grootschalige dataset van GUI-schermafbeeldingen voor contextbewust begrip van UI-elementen en nauwkeurige bijschriften; (2) Geünificeerde Actiemodellering, die acties standaardiseert in een verenigde ruimte over platforms heen en nauwkeurige gronding en interactie bereikt via grootschalige actietraces; (3) System-2 Redeneren, dat doelbewuste redenering opneemt in besluitvorming in meerdere stappen, waarbij meerdere redeneringspatronen zoals taakdecompositie, reflecterend denken, mijlpaalherkenning, enz. betrokken zijn; (4) Iteratieve Training met Reflecterende Online Traces, dat het databottleneck aanpakt door automatisch nieuwe interactietraces te verzamelen, filteren en reflectief te verfijnen op honderden virtuele machines. Door iteratieve training en reflectieve afstemming leert UI-TARS voortdurend van zijn fouten en past het zich aan onvoorziene situaties aan met minimale menselijke tussenkomst. We analyseren ook het evolutiepad van GUI-agenten om de verdere ontwikkeling van dit domein te sturen.
English
This paper introduces UI-TARS, a native GUI agent model that solely perceives
the screenshots as input and performs human-like interactions (e.g., keyboard
and mouse operations). Unlike prevailing agent frameworks that depend on
heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts
and workflows, UI-TARS is an end-to-end model that outperforms these
sophisticated frameworks. Experiments demonstrate its superior performance:
UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating
perception, grounding, and GUI task execution. Notably, in the OSWorld
benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15
steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld,
UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several
key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of
GUI screenshots for context-aware understanding of UI elements and precise
captioning; (2) Unified Action Modeling, which standardizes actions into a
unified space across platforms and achieves precise grounding and interaction
through large-scale action traces; (3) System-2 Reasoning, which incorporates
deliberate reasoning into multi-step decision making, involving multiple
reasoning patterns such as task decomposition, reflection thinking, milestone
recognition, etc. (4) Iterative Training with Reflective Online Traces, which
addresses the data bottleneck by automatically collecting, filtering, and
reflectively refining new interaction traces on hundreds of virtual machines.
Through iterative training and reflection tuning, UI-TARS continuously learns
from its mistakes and adapts to unforeseen situations with minimal human
intervention. We also analyze the evolution path of GUI agents to guide the
further development of this domain.Summary
AI-Generated Summary