Contrôle Léger d'Applications Neuronales

Lightweight Neural App Control

October 23, 2024
Auteurs: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI

Résumé

Cet article présente une nouvelle architecture de contrôle de téléphone mobile, appelée "agents d'application", pour des interactions et des contrôles efficaces à travers différentes applications Android. Le contrôle d'application multi-modal léger proposé (LiMAC) prend en entrée un objectif textuel et une séquence d'observations mobiles passées, telles que des captures d'écran et des arbres d'interface utilisateur correspondants, pour générer des actions précises. Pour répondre aux contraintes computationnelles inhérentes aux smartphones, au sein de LiMAC, nous introduisons un petit Transformateur d'Action (AcT) intégré à un modèle vision-langage affiné (VLM) pour la prise de décision en temps réel et l'exécution des tâches. Nous évaluons LiMAC sur deux ensembles de données de contrôle mobile open-source, démontrant les performances supérieures de notre approche de petit facteur de forme par rapport aux versions affinées de VLM open-source, telles que Florence2 et Qwen2-VL. Il surpasse également de manière significative les lignes de base d'ingénierie de prompts utilisant des modèles de fondation propriétaires comme GPT-4o. Plus précisément, LiMAC augmente la précision globale des actions jusqu'à 19% par rapport aux VLM affinés, et jusqu'à 42% par rapport aux lignes de base d'ingénierie de prompts.
English
This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Summary

AI-Generated Summary

PDF92November 16, 2024