가벼운 신경망 앱 제어
Lightweight Neural App Control
October 23, 2024
저자: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
초록
본 논문은 효율적 상호작용 및 안드로이드 앱 간 제어를 위한 새로운 휴대전화 제어 구조인 "앱 에이전트"를 소개합니다. 제안된 경량 다중 모달 앱 제어(LiMAC)는 텍스트 목표와 이전 모바일 관측(스크린샷 및 해당 UI 트리와 같은) 시퀀스를 입력으로 받아 정확한 작업을 생성합니다. 스마트폰에 내재된 계산 제약을 해결하기 위해 LiMAC 내에서는 실시간 의사 결정 및 작업 실행을 위한 작은 액션 변환기(AcT)와 세밀하게 조정된 비전-언어 모델(VLM)을 도입합니다. 우리는 LiMAC을 두 개의 오픈 소스 모바일 제어 데이터셋에서 평가하여, 우리의 소형 폼 팩터 접근법이 Florence2 및 Qwen2-VL과 같은 오픈 소스 VLM의 세밀하게 조정된 버전에 비해 우수한 성능을 보여줌을 입증합니다. 또한 GPT-4o와 같은 폐쇄 소스 기반 모델을 활용하는 프롬프트 엔지니어링 기준을 크게 능가합니다. 더 구체적으로, LiMAC은 세밀하게 조정된 VLM에 비해 전체 작업 정확도를 최대 19% 향상시키고, 프롬프트 엔지니어링 기준에 비해 최대 42% 향상시킵니다.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary