MobA: Een Twee-Niveaus Agentensysteem voor Efficiënte Automatisering van Mobiele Taken
MobA: A Two-Level Agent System for Efficient Mobile Task Automation
October 17, 2024
Auteurs: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI
Samenvatting
Huidige mobiele assistenten worden beperkt door hun afhankelijkheid van systeem-API's of worstelen met complexe gebruikersinstructies en diverse interfaces vanwege beperkte begrips- en besluitvormingsvaardigheden. Om deze uitdagingen aan te pakken, stellen we MobA voor, een nieuw mobiel telefoonagent aangedreven door multimodale grote taalmodellen die begrips- en planningsvaardigheden verbeteren via een geavanceerde tweelaags agentarchitectuur. De hoog-niveau Globale Agent (GA) is verantwoordelijk voor het begrijpen van gebruikersopdrachten, het bijhouden van geschiedenisherinneringen en het plannen van taken. De laag-niveau Lokale Agent (LA) voorspelt gedetailleerde acties in de vorm van functieaanroepen, geleid door subtaken en herinneringen van de GA. Het integreren van een Reflectiemodule maakt efficiënte taakvoltooiing mogelijk en stelt het systeem in staat om eerder ongeziene complexe taken aan te pakken. MobA toont aanzienlijke verbeteringen in de efficiëntie van taakuitvoering en voltooiingspercentage in real-life evaluaties, waarbij het potentieel van MLLM-gestuurde mobiele assistenten wordt benadrukt.
English
Current mobile assistants are limited by dependence on system APIs or
struggle with complex user instructions and diverse interfaces due to
restricted comprehension and decision-making abilities. To address these
challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal
large language models that enhances comprehension and planning capabilities
through a sophisticated two-level agent architecture. The high-level Global
Agent (GA) is responsible for understanding user commands, tracking history
memories, and planning tasks. The low-level Local Agent (LA) predicts detailed
actions in the form of function calls, guided by sub-tasks and memory from the
GA. Integrating a Reflection Module allows for efficient task completion and
enables the system to handle previously unseen complex tasks. MobA demonstrates
significant improvements in task execution efficiency and completion rate in
real-life evaluations, underscoring the potential of MLLM-empowered mobile
assistants.Summary
AI-Generated Summary