복잡한 작업을 위한 자기 진화 모바일 어시스턴트 Mobile-Agent-E
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
January 20, 2025
저자: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji
cs.AI
초록
현대 생활에서 스마트폰은 필수품이 되었지만, 모바일 기기에서 복잡한 작업을 탐색하는 것은 종종 괴로운 일로 남아 있습니다. 대형 다중 모달 모델(LMM) 기반 모바일 에이전트의 최근 발전은 모바일 환경에서 인식하고 행동할 수 있는 능력을 증명했습니다. 그러나 현재의 접근 방식은 실제 인간의 필요를 해결하는 데 부족하며, 추론 집중적이고 장기적인 작업에 어려움을 겪으며, 이전 경험으로부터 학습하고 개선하는 메커니즘이 부족합니다. 이러한 도전에 대처하기 위해 우리는 Mobile-Agent-E를 소개합니다. 이는 과거 경험을 통해 스스로 진화할 수 있는 계층적 다중 에이전트 프레임워크입니다. 여기서 계층적이라 함은 고수준 계획과 저수준 행동 실행을 명시적으로 분리한다는 것을 의미합니다. 이 프레임워크는 복잡한 작업을 하위 목표로 분해하여 전반적인 계획을 세우는 Manager와 시각 인식, 즉각적인 행동 실행, 오류 검증 및 정보 집계를 처리하는 네 개의 하위 에이전트인 Perceptor, Operator, Action Reflector 및 Notetaker로 구성됩니다. Mobile-Agent-E에는 이전 작업에서 효과적으로 환경과 상호 작용하는 방법에 대한 일반적인 지침 및 배운 교훈인 Tips로 구성된 지속적인 장기 기억을 유지하는 혁신적인 자체 진화 모듈이 포함되어 있습니다. Shortcuts는 특정 서브루틴에 맞게 맞춤화된 실행 가능한 원자 작업 시퀀스로, Tips와 Shortcuts의 포함은 성능과 효율성의 지속적인 개선을 용이하게 합니다. 이 프레임워크와 함께, 장기적이고 다중 앱 상호 작용이 필요한 복잡한 모바일 작업을 특징으로 하는 새로운 벤치마크인 Mobile-Eval-E를 소개합니다. 경험적 결과는 Mobile-Agent-E가 세 가지 주요 모델 백본에서 이전 최첨단 접근 방식에 비해 22%의 절대적인 개선을 달성했음을 보여줍니다. 프로젝트 페이지: https://x-plug.github.io/MobileAgent.
English
Smartphones have become indispensable in modern life, yet navigating complex
tasks on mobile devices often remains frustrating. Recent advancements in large
multimodal model (LMM)-based mobile agents have demonstrated the ability to
perceive and act in mobile environments. However, current approaches face
significant limitations: they fall short in addressing real-world human needs,
struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms
to learn and improve from prior experiences. To overcome these challenges, we
introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of
self-evolution through past experience. By hierarchical, we mean an explicit
separation of high-level planning and low-level action execution. The framework
comprises a Manager, responsible for devising overall plans by breaking down
complex tasks into subgoals, and four subordinate agents--Perceptor, Operator,
Action Reflector, and Notetaker--which handle fine-grained visual perception,
immediate action execution, error verification, and information aggregation,
respectively. Mobile-Agent-E also features a novel self-evolution module which
maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are
general guidance and lessons learned from prior tasks on how to effectively
interact with the environment. Shortcuts are reusable, executable sequences of
atomic operations tailored for specific subroutines. The inclusion of Tips and
Shortcuts facilitates continuous refinement in performance and efficiency.
Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring
complex mobile tasks requiring long-horizon, multi-app interactions. Empirical
results show that Mobile-Agent-E achieves a 22% absolute improvement over
previous state-of-the-art approaches across three foundation model backbones.
Project page: https://x-plug.github.io/MobileAgent.Summary
AI-Generated Summary