Leichte neuronale App-Steuerung
Lightweight Neural App Control
October 23, 2024
Autoren: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Zusammenfassung
Dieses Paper stellt eine neuartige Architektur zur Steuerung von Mobiltelefonen vor, die als "App-Agenten" bezeichnet wird, um effiziente Interaktionen und Steuerungen über verschiedene Android-Apps hinweg zu ermöglichen. Das vorgeschlagene Leichte Multi-Modale App-Steuerungssystem (LiMAC) nimmt als Eingabe ein textuelles Ziel und eine Sequenz vergangener Mobilbeobachtungen, wie Screenshots und entsprechende UI-Bäume, entgegen, um präzise Aktionen zu generieren. Um den rechnerischen Beschränkungen von Smartphones entgegenzuwirken, führen wir innerhalb von LiMAC einen kleinen Aktions-Transformer (AcT) ein, der mit einem feinabgestimmten Bildsprachmodell (VLM) für Echtzeit-Entscheidungsfindung und Aufgabenausführung integriert ist. Wir evaluieren LiMAC anhand von zwei Open-Source-Datensätzen zur mobilen Steuerung und zeigen die überlegene Leistung unseres Ansatzes im Kleinformat im Vergleich zu feinabgestimmten Versionen von Open-Source-VLMs wie Florence2 und Qwen2-VL. Es übertrifft auch signifikant Baselines der Prompt-Entwicklung, die auf geschlossenen Grundlagenmodellen wie GPT-4o basieren. Genauer gesagt steigert LiMAC die Gesamtaktionsgenauigkeit um bis zu 19 % im Vergleich zu feinabgestimmten VLMs und um bis zu 42 % im Vergleich zu Baselines der Prompt-Entwicklung.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary