Contrôle Léger d'Applications Neuronales
Lightweight Neural App Control
October 23, 2024
Auteurs: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Résumé
Cet article présente une nouvelle architecture de contrôle de téléphone mobile, appelée "agents d'application", pour des interactions et des contrôles efficaces à travers différentes applications Android. Le contrôle d'application multi-modal léger proposé (LiMAC) prend en entrée un objectif textuel et une séquence d'observations mobiles passées, telles que des captures d'écran et des arbres d'interface utilisateur correspondants, pour générer des actions précises. Pour répondre aux contraintes computationnelles inhérentes aux smartphones, au sein de LiMAC, nous introduisons un petit Transformateur d'Action (AcT) intégré à un modèle vision-langage affiné (VLM) pour la prise de décision en temps réel et l'exécution des tâches. Nous évaluons LiMAC sur deux ensembles de données de contrôle mobile open-source, démontrant les performances supérieures de notre approche de petit facteur de forme par rapport aux versions affinées de VLM open-source, telles que Florence2 et Qwen2-VL. Il surpasse également de manière significative les lignes de base d'ingénierie de prompts utilisant des modèles de fondation propriétaires comme GPT-4o. Plus précisément, LiMAC augmente la précision globale des actions jusqu'à 19% par rapport aux VLM affinés, et jusqu'à 42% par rapport aux lignes de base d'ingénierie de prompts.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary