Mobiele-Agent-E: Zelfevoluerende Mobiele Assistent voor Complex Taken

Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

January 20, 2025
Auteurs: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji
cs.AI

Samenvatting

Smartphones zijn onmisbaar geworden in het moderne leven, maar het uitvoeren van complexe taken op mobiele apparaten blijft vaak frustrerend. Recente ontwikkelingen in op grote multimodellen (LMM) gebaseerde mobiele agenten hebben aangetoond dat ze in staat zijn om te waarnemen en te handelen in mobiele omgevingen. Echter, huidige benaderingen hebben aanzienlijke beperkingen: ze schieten tekort in het aanpakken van echte menselijke behoeften, worstelen met redeneringsintensieve en langetermijntaken, en missen mechanismen om te leren en te verbeteren op basis van eerdere ervaringen. Om deze uitdagingen te overwinnen, introduceren we Mobile-Agent-E, een hiërarchisch multi-agent framework dat in staat is tot zelfevolutie door middel van eerdere ervaringen. Met hiërarchisch bedoelen we een expliciete scheiding van hoog-niveau planning en laag-niveau actie-uitvoering. Het framework bestaat uit een Manager, verantwoordelijk voor het bedenken van algemene plannen door complexe taken op te splitsen in subdoelen, en vier ondergeschikte agenten - Perceptor, Operator, Action Reflector en Notetaker - die respectievelijk fijnmazige visuele waarneming, onmiddellijke actie-uitvoering, foutverificatie en informatie-aggregatie behandelen. Mobile-Agent-E bevat ook een nieuw zelfevolutiemodule die een blijvend langetermijngeheugen onderhoudt bestaande uit Tips en Shortcuts. Tips zijn algemene richtlijnen en lessen geleerd uit eerdere taken over hoe effectief te interacteren met de omgeving. Shortcuts zijn herbruikbare, uitvoerbare sequenties van atomaire bewerkingen op maat gemaakt voor specifieke subroutines. De inclusie van Tips en Shortcuts vergemakkelijkt voortdurende verfijning in prestaties en efficiëntie. Naast dit framework introduceren we Mobile-Eval-E, een nieuwe benchmark met complexe mobiele taken die lange-termijn, multi-app interacties vereisen. Empirische resultaten tonen aan dat Mobile-Agent-E een 22% absolute verbetering behaalt ten opzichte van eerdere state-of-the-art benaderingen over drie fundamentele modelruggengraat. Projectpagina: https://x-plug.github.io/MobileAgent.
English
Smartphones have become indispensable in modern life, yet navigating complex tasks on mobile devices often remains frustrating. Recent advancements in large multimodal model (LMM)-based mobile agents have demonstrated the ability to perceive and act in mobile environments. However, current approaches face significant limitations: they fall short in addressing real-world human needs, struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms to learn and improve from prior experiences. To overcome these challenges, we introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of self-evolution through past experience. By hierarchical, we mean an explicit separation of high-level planning and low-level action execution. The framework comprises a Manager, responsible for devising overall plans by breaking down complex tasks into subgoals, and four subordinate agents--Perceptor, Operator, Action Reflector, and Notetaker--which handle fine-grained visual perception, immediate action execution, error verification, and information aggregation, respectively. Mobile-Agent-E also features a novel self-evolution module which maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are general guidance and lessons learned from prior tasks on how to effectively interact with the environment. Shortcuts are reusable, executable sequences of atomic operations tailored for specific subroutines. The inclusion of Tips and Shortcuts facilitates continuous refinement in performance and efficiency. Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring complex mobile tasks requiring long-horizon, multi-app interactions. Empirical results show that Mobile-Agent-E achieves a 22% absolute improvement over previous state-of-the-art approaches across three foundation model backbones. Project page: https://x-plug.github.io/MobileAgent.

Summary

AI-Generated Summary

PDF262January 22, 2025