MobA: Een Twee-Niveaus Agentensysteem voor Efficiënte Automatisering van Mobiele Taken

MobA: A Two-Level Agent System for Efficient Mobile Task Automation

October 17, 2024
Auteurs: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI

Samenvatting

Huidige mobiele assistenten worden beperkt door hun afhankelijkheid van systeem-API's of worstelen met complexe gebruikersinstructies en diverse interfaces vanwege beperkte begrips- en besluitvormingsvaardigheden. Om deze uitdagingen aan te pakken, stellen we MobA voor, een nieuw mobiel telefoonagent aangedreven door multimodale grote taalmodellen die begrips- en planningsvaardigheden verbeteren via een geavanceerde tweelaags agentarchitectuur. De hoog-niveau Globale Agent (GA) is verantwoordelijk voor het begrijpen van gebruikersopdrachten, het bijhouden van geschiedenisherinneringen en het plannen van taken. De laag-niveau Lokale Agent (LA) voorspelt gedetailleerde acties in de vorm van functieaanroepen, geleid door subtaken en herinneringen van de GA. Het integreren van een Reflectiemodule maakt efficiënte taakvoltooiing mogelijk en stelt het systeem in staat om eerder ongeziene complexe taken aan te pakken. MobA toont aanzienlijke verbeteringen in de efficiëntie van taakuitvoering en voltooiingspercentage in real-life evaluaties, waarbij het potentieel van MLLM-gestuurde mobiele assistenten wordt benadrukt.
English
Current mobile assistants are limited by dependence on system APIs or struggle with complex user instructions and diverse interfaces due to restricted comprehension and decision-making abilities. To address these challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal large language models that enhances comprehension and planning capabilities through a sophisticated two-level agent architecture. The high-level Global Agent (GA) is responsible for understanding user commands, tracking history memories, and planning tasks. The low-level Local Agent (LA) predicts detailed actions in the form of function calls, guided by sub-tasks and memory from the GA. Integrating a Reflection Module allows for efficient task completion and enables the system to handle previously unseen complex tasks. MobA demonstrates significant improvements in task execution efficiency and completion rate in real-life evaluations, underscoring the potential of MLLM-empowered mobile assistants.

Summary

AI-Generated Summary

PDF313November 16, 2024