효율적인 모바일 작업 자동화를 위한 이차 에이전트 시스템 MobA
MobA: A Two-Level Agent System for Efficient Mobile Task Automation
October 17, 2024
저자: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI
초록
현재의 모바일 어시스턴트는 시스템 API에 의존하거나 제한된 이해력과 의사 결정 능력으로 복잡한 사용자 지시와 다양한 인터페이스에 어려움을 겪습니다. 이러한 도전에 대처하기 위해 우리는 MobA를 제안합니다. MobA는 다중 모달 대형 언어 모델을 기반으로 한 새로운 모바일 폰 에이전트로, 정교한 두 수준의 에이전트 아키텍처를 통해 이해력과 계획 능력을 향상시킵니다. 고수준 글로벌 에이전트(GA)는 사용자 명령을 이해하고 히스토리 메모리를 추적하며 작업을 계획하는 역할을 합니다. 저수준 로컬 에이전트(LA)는 GA의 하위 작업과 메모리에 따라 함수 호출 형태로 자세한 작업을 예측합니다. 반사 모듈을 통합하여 효율적인 작업 완료가 가능하며, 시스템이 이전에 보지 못한 복잡한 작업을 처리할 수 있게 합니다. MobA는 실제 평가에서 작업 실행 효율성과 완료율에서 상당한 향상을 보여주며, MLLM을 활용한 모바일 어시스턴트의 잠재력을 강조합니다.
English
Current mobile assistants are limited by dependence on system APIs or
struggle with complex user instructions and diverse interfaces due to
restricted comprehension and decision-making abilities. To address these
challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal
large language models that enhances comprehension and planning capabilities
through a sophisticated two-level agent architecture. The high-level Global
Agent (GA) is responsible for understanding user commands, tracking history
memories, and planning tasks. The low-level Local Agent (LA) predicts detailed
actions in the form of function calls, guided by sub-tasks and memory from the
GA. Integrating a Reflection Module allows for efficient task completion and
enables the system to handle previously unseen complex tasks. MobA demonstrates
significant improvements in task execution efficiency and completion rate in
real-life evaluations, underscoring the potential of MLLM-empowered mobile
assistants.Summary
AI-Generated Summary