A3: 모바일 GUI 에이전트를 위한 안드로이드 에이전트 아레나
A3: Android Agent Arena for Mobile GUI Agents
January 2, 2025
저자: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
cs.AI
초록
AI 에이전트는 최근 대규모 언어 모델 (LLM) 분야의 중요한 발전에 이끌려 점점 더 보편화되었습니다. 모바일 GUI 에이전트는 AI 에이전트의 하위 집합으로, 모바일 기기에서 자율적으로 작업을 수행하도록 설계되었습니다. 많은 연구가 모바일 GUI 에이전트 연구를 발전시키기 위해 에이전트, 데이터셋 및 평가 기준을 소개했지만, 많은 기존 데이터셋은 정적 프레임 평가에 중점을 두고 있으며 현실 세계에서의 작업 성능을 평가하기에는 포괄적인 플랫폼을 제공하지 못하고 있습니다. 이러한 공백을 해결하기 위해 Android Agent Arena (A3)이라는 새로운 평가 플랫폼을 제안합니다. 기존의 현실 세계 시스템과 달리 A3은 다음을 제공합니다: (1) 실시간 온라인 정보 검색 및 운영 지침과 같은 의미 있는 실용적인 작업; (2) 더 크고 유연한 액션 공간으로, 어떤 데이터셋에서 훈련된 에이전트와도 호환되도록 합니다; 그리고 (3) 자동화된 비즈니스 수준의 LLM 기반 평가 프로세스를 제공합니다. A3에는 21개의 널리 사용되는 일반 제3자 앱과 공통 사용자 시나리오를 대표하는 201가지 작업이 포함되어 있어, 현실 세계 상황에서 모바일 GUI 에이전트를 평가하는 견고한 기반을 제공하며, 인간 노동과 코딩 전문 지식이 적게 필요한 새로운 자율 평가 프로세스를 제공합니다. 해당 프로젝트는 https://yuxiangchai.github.io/Android-Agent-Arena/에서 이용할 수 있습니다.
English
AI agents have become increasingly prevalent in recent years, driven by
significant advancements in the field of large language models (LLMs). Mobile
GUI agents, a subset of AI agents, are designed to autonomously perform tasks
on mobile devices. While numerous studies have introduced agents, datasets, and
benchmarks to advance mobile GUI agent research, many existing datasets focus
on static frame evaluations and fail to provide a comprehensive platform for
assessing performance on real-world, in-the-wild tasks. To address this gap, we
present Android Agent Arena (A3), a novel evaluation platform. Unlike existing
in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as
real-time online information retrieval and operational instructions; (2) a
larger, more flexible action space, enabling compatibility with agents trained
on any dataset; and (3) automated business-level LLM-based evaluation process.
A3 includes 21 widely used general third-party apps and 201 tasks
representative of common user scenarios, providing a robust foundation for
evaluating mobile GUI agents in real-world situations and a new autonomous
evaluation process for less human labor and coding expertise. The project is
available at https://yuxiangchai.github.io/Android-Agent-Arena/.Summary
AI-Generated Summary