UFO2: Het Desktop AgentOS
UFO2: The Desktop AgentOS
April 20, 2025
Auteurs: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Samenvatting
Recente Computer-Using Agents (CUAs), aangedreven door multimodale grote taalmodellen (LLMs), bieden een veelbelovende richting voor het automatiseren van complexe desktopwerkstromen via natuurlijke taal. De meeste bestaande CUAs blijven echter conceptuele prototypes, gehinderd door oppervlakkige OS-integratie, fragiele interactie op basis van schermafbeeldingen en verstorende uitvoering.
Wij presenteren UFO2, een multiagent AgentOS voor Windows-desktops die CUAs naar een praktisch, systeemniveau van automatisering tilt. UFO2 beschikt over een gecentraliseerde HostAgent voor taakdecompositie en coördinatie, naast een verzameling applicatiegespecialiseerde AppAgents die zijn uitgerust met native API's, domeinspecifieke kennis en een uniforme GUI--API-actielaag. Deze architectuur maakt robuuste taakuitvoering mogelijk terwijl modulariteit en uitbreidbaarheid behouden blijven. Een hybride controledetectiepipeline combineert Windows UI Automation (UIA) met visiegebaseerde parsing om diverse interfacestijlen te ondersteunen. De runtime-efficiëntie wordt verder verbeterd door middel van speculatieve multi-actieplanning, waardoor de LLM-overhead per stap wordt verminderd. Ten slotte maakt een Picture-in-Picture (PiP)-interface automatisering mogelijk binnen een geïsoleerde virtuele desktop, waardoor agents en gebruikers gelijktijdig kunnen werken zonder interferentie.
Wij evalueren UFO2 over meer dan 20 real-world Windows-applicaties, waarbij aanzienlijke verbeteringen in robuustheid en uitvoeringsnauwkeurigheid ten opzichte van eerdere CUAs worden aangetoond. Onze resultaten laten zien dat diepe OS-integratie een schaalbare weg opent naar betrouwbare, gebruikersgerichte desktopautomatisering.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary