UI-TARS: Pionierhafte automatisierte GUI-Interaktion mit nativen Agenten
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
January 21, 2025
Autoren: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, Wanjun Zhong, Kuanye Li, Jiale Yang, Yu Miao, Woyu Lin, Longxiang Liu, Xu Jiang, Qianli Ma, Jingyu Li, Xiaojun Xiao, Kai Cai, Chuang Li, Yaowei Zheng, Chaolin Jin, Chen Li, Xiao Zhou, Minchao Wang, Haoli Chen, Zhaojian Li, Haihua Yang, Haifeng Liu, Feng Lin, Tao Peng, Xin Liu, Guang Shi
cs.AI
Zusammenfassung
Dieses Papier stellt UI-TARS vor, ein natives GUI-Agentenmodell, das ausschließlich Screenshots als Eingabe wahrnimmt und menschenähnliche Interaktionen (z. B. Tastatur- und Mausoperationen) ausführt. Im Gegensatz zu vorherrschenden Agenten-Frameworks, die stark auf umhüllte kommerzielle Modelle (z. B. GPT-4o) mit expertengefertigten Eingabeaufforderungen und Workflows angewiesen sind, ist UI-TARS ein End-to-End-Modell, das diese ausgeklügelten Frameworks übertrifft. Experimente zeigen seine überlegene Leistung: UI-TARS erzielt die SOTA-Leistung in über 10 GUI-Agenten-Benchmarks, die Wahrnehmung, Verankerung und die Ausführung von GUI-Aufgaben bewerten. Insbesondere erreicht UI-TARS im OSWorld-Benchmark Punktzahlen von 24,6 mit 50 Schritten und 22,7 mit 15 Schritten und übertrifft damit Claude (22,0 bzw. 14,9). Im AndroidWorld erreicht UI-TARS 46,6 und übertrifft GPT-4o (34,5). UI-TARS integriert mehrere Schlüsselinnovationen: (1) Verbesserte Wahrnehmung: Nutzung eines groß angelegten Datensatzes von GUI-Screenshots für ein kontextbewusstes Verständnis von UI-Elementen und präzise Beschriftung; (2) Vereinheitlichte Aktionsmodellierung, die Aktionen in einen vereinheitlichten Raum über Plattformen hinweg standardisiert und durch groß angelegte Aktionsverläufe präzise Verankerung und Interaktion erreicht; (3) System-2-Argumentation, die bewusste Argumentation in mehrschrittige Entscheidungsfindung integriert, unter Einbeziehung mehrerer Argumentationsmuster wie Aufgabenzerlegung, Reflexionsdenken, Meilensteinerkennung usw.; (4) Iteratives Training mit reflektierenden Online-Verläufen, das den Datenengpass durch automatische Sammlung, Filterung und reflektierende Verfeinerung neuer Interaktionsverläufe auf Hunderten von virtuellen Maschinen angeht. Durch iteratives Training und reflektierende Feinabstimmung lernt UI-TARS kontinuierlich aus seinen Fehlern und passt sich mit minimalem menschlichem Eingreifen an unvorhergesehene Situationen an. Wir analysieren auch den Entwicklungspfad von GUI-Agenten, um die weitere Entwicklung dieses Bereichs zu lenken.
English
This paper introduces UI-TARS, a native GUI agent model that solely perceives
the screenshots as input and performs human-like interactions (e.g., keyboard
and mouse operations). Unlike prevailing agent frameworks that depend on
heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts
and workflows, UI-TARS is an end-to-end model that outperforms these
sophisticated frameworks. Experiments demonstrate its superior performance:
UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating
perception, grounding, and GUI task execution. Notably, in the OSWorld
benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15
steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld,
UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several
key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of
GUI screenshots for context-aware understanding of UI elements and precise
captioning; (2) Unified Action Modeling, which standardizes actions into a
unified space across platforms and achieves precise grounding and interaction
through large-scale action traces; (3) System-2 Reasoning, which incorporates
deliberate reasoning into multi-step decision making, involving multiple
reasoning patterns such as task decomposition, reflection thinking, milestone
recognition, etc. (4) Iterative Training with Reflective Online Traces, which
addresses the data bottleneck by automatically collecting, filtering, and
reflectively refining new interaction traces on hundreds of virtual machines.
Through iterative training and reflection tuning, UI-TARS continuously learns
from its mistakes and adapts to unforeseen situations with minimal human
intervention. We also analyze the evolution path of GUI agents to guide the
further development of this domain.Summary
AI-Generated Summary