
A3: 모바일 GUI 에이전트를 위한 안드로이드 에이전트 아레나

A3: Android Agent Arena for Mobile GUI Agents

January 2, 2025
저자: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li


AI 에이전트는 최근 대규모 언어 모델 (LLM) 분야의 중요한 발전에 이끌려 점점 더 보편화되었습니다. 모바일 GUI 에이전트는 AI 에이전트의 하위 집합으로, 모바일 기기에서 자율적으로 작업을 수행하도록 설계되었습니다. 많은 연구가 모바일 GUI 에이전트 연구를 발전시키기 위해 에이전트, 데이터셋 및 평가 기준을 소개했지만, 많은 기존 데이터셋은 정적 프레임 평가에 중점을 두고 있으며 현실 세계에서의 작업 성능을 평가하기에는 포괄적인 플랫폼을 제공하지 못하고 있습니다. 이러한 공백을 해결하기 위해 Android Agent Arena (A3)이라는 새로운 평가 플랫폼을 제안합니다. 기존의 현실 세계 시스템과 달리 A3은 다음을 제공합니다: (1) 실시간 온라인 정보 검색 및 운영 지침과 같은 의미 있는 실용적인 작업; (2) 더 크고 유연한 액션 공간으로, 어떤 데이터셋에서 훈련된 에이전트와도 호환되도록 합니다; 그리고 (3) 자동화된 비즈니스 수준의 LLM 기반 평가 프로세스를 제공합니다. A3에는 21개의 널리 사용되는 일반 제3자 앱과 공통 사용자 시나리오를 대표하는 201가지 작업이 포함되어 있어, 현실 세계 상황에서 모바일 GUI 에이전트를 평가하는 견고한 기반을 제공하며, 인간 노동과 코딩 전문 지식이 적게 필요한 새로운 자율 평가 프로세스를 제공합니다. 해당 프로젝트는에서 이용할 수 있습니다.
AI agents have become increasingly prevalent in recent years, driven by significant advancements in the field of large language models (LLMs). Mobile GUI agents, a subset of AI agents, are designed to autonomously perform tasks on mobile devices. While numerous studies have introduced agents, datasets, and benchmarks to advance mobile GUI agent research, many existing datasets focus on static frame evaluations and fail to provide a comprehensive platform for assessing performance on real-world, in-the-wild tasks. To address this gap, we present Android Agent Arena (A3), a novel evaluation platform. Unlike existing in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as real-time online information retrieval and operational instructions; (2) a larger, more flexible action space, enabling compatibility with agents trained on any dataset; and (3) automated business-level LLM-based evaluation process. A3 includes 21 widely used general third-party apps and 201 tasks representative of common user scenarios, providing a robust foundation for evaluating mobile GUI agents in real-world situations and a new autonomous evaluation process for less human labor and coding expertise. The project is available at


AI-Generated Summary

PDF223January 3, 2025