Mobiele-Agent-E: Zelfevoluerende Mobiele Assistent voor Complex Taken
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
January 20, 2025
Auteurs: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji
cs.AI
Samenvatting
Smartphones zijn onmisbaar geworden in het moderne leven, maar het uitvoeren van complexe taken op mobiele apparaten blijft vaak frustrerend. Recente ontwikkelingen in op grote multimodellen (LMM) gebaseerde mobiele agenten hebben aangetoond dat ze in staat zijn om te waarnemen en te handelen in mobiele omgevingen. Echter, huidige benaderingen hebben aanzienlijke beperkingen: ze schieten tekort in het aanpakken van echte menselijke behoeften, worstelen met redeneringsintensieve en langetermijntaken, en missen mechanismen om te leren en te verbeteren op basis van eerdere ervaringen. Om deze uitdagingen te overwinnen, introduceren we Mobile-Agent-E, een hiërarchisch multi-agent framework dat in staat is tot zelfevolutie door middel van eerdere ervaringen. Met hiërarchisch bedoelen we een expliciete scheiding van hoog-niveau planning en laag-niveau actie-uitvoering. Het framework bestaat uit een Manager, verantwoordelijk voor het bedenken van algemene plannen door complexe taken op te splitsen in subdoelen, en vier ondergeschikte agenten - Perceptor, Operator, Action Reflector en Notetaker - die respectievelijk fijnmazige visuele waarneming, onmiddellijke actie-uitvoering, foutverificatie en informatie-aggregatie behandelen. Mobile-Agent-E bevat ook een nieuw zelfevolutiemodule die een blijvend langetermijngeheugen onderhoudt bestaande uit Tips en Shortcuts. Tips zijn algemene richtlijnen en lessen geleerd uit eerdere taken over hoe effectief te interacteren met de omgeving. Shortcuts zijn herbruikbare, uitvoerbare sequenties van atomaire bewerkingen op maat gemaakt voor specifieke subroutines. De inclusie van Tips en Shortcuts vergemakkelijkt voortdurende verfijning in prestaties en efficiëntie. Naast dit framework introduceren we Mobile-Eval-E, een nieuwe benchmark met complexe mobiele taken die lange-termijn, multi-app interacties vereisen. Empirische resultaten tonen aan dat Mobile-Agent-E een 22% absolute verbetering behaalt ten opzichte van eerdere state-of-the-art benaderingen over drie fundamentele modelruggengraat. Projectpagina: https://x-plug.github.io/MobileAgent.
English
Smartphones have become indispensable in modern life, yet navigating complex
tasks on mobile devices often remains frustrating. Recent advancements in large
multimodal model (LMM)-based mobile agents have demonstrated the ability to
perceive and act in mobile environments. However, current approaches face
significant limitations: they fall short in addressing real-world human needs,
struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms
to learn and improve from prior experiences. To overcome these challenges, we
introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of
self-evolution through past experience. By hierarchical, we mean an explicit
separation of high-level planning and low-level action execution. The framework
comprises a Manager, responsible for devising overall plans by breaking down
complex tasks into subgoals, and four subordinate agents--Perceptor, Operator,
Action Reflector, and Notetaker--which handle fine-grained visual perception,
immediate action execution, error verification, and information aggregation,
respectively. Mobile-Agent-E also features a novel self-evolution module which
maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are
general guidance and lessons learned from prior tasks on how to effectively
interact with the environment. Shortcuts are reusable, executable sequences of
atomic operations tailored for specific subroutines. The inclusion of Tips and
Shortcuts facilitates continuous refinement in performance and efficiency.
Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring
complex mobile tasks requiring long-horizon, multi-app interactions. Empirical
results show that Mobile-Agent-E achieves a 22% absolute improvement over
previous state-of-the-art approaches across three foundation model backbones.
Project page: https://x-plug.github.io/MobileAgent.Summary
AI-Generated Summary