Lichtgewicht Neuraal Applicatiebeheer
Lightweight Neural App Control
October 23, 2024
Auteurs: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Samenvatting
Dit artikel introduceert een nieuwe architectuur voor mobiele telefoonbesturing, genaamd "app-agents", voor efficiënte interacties en besturing over verschillende Android-apps. Het voorgestelde Lightweight Multi-modal App Control (LiMAC) neemt als input een tekstueel doel en een reeks eerdere mobiele waarnemingen, zoals schermafbeeldingen en overeenkomstige UI-bomen, om nauwkeurige acties te genereren. Om de rekenbeperkingen die inherent zijn aan smartphones aan te pakken, introduceren we binnen LiMAC een kleine Action Transformer (AcT) geïntegreerd met een fijn afgestemd visie-taalmodel (VLM) voor realtime besluitvorming en taakuitvoering. We evalueren LiMAC op twee open-source datasets voor mobiele besturing, waarbij we de superieure prestaties van onze benadering met klein formaat aantonen ten opzichte van fijn afgestemde versies van open-source VLM's, zoals Florence2 en Qwen2-VL. Het presteert ook aanzienlijk beter dan prompt-engineering baselines die gebruikmaken van gesloten-source foundation-modellen zoals GPT-4o. Meer specifiek verhoogt LiMAC de algehele actie-accuraatheid met maximaal 19% in vergelijking met fijn afgestemde VLM's, en tot 42% in vergelijking met prompt-engineering baselines.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary