ChatPaper.aiChatPaper

대규모 언어 모델 기반 GUI 에이전트: 조사

Large Language Model-Brained GUI Agents: A Survey

November 27, 2024
저자: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

초록

GUI는 오랫동안 인간-컴퓨터 상호작용의 중심 역할을 해왔으며, 디지털 시스템에 직관적이고 시각적인 방법으로 접근하고 상호작용할 수 있는 방법을 제공합니다. 특히 다중 모달 모델인 LLM의 등장은 GUI 자동화의 새로운 시대를 열었습니다. 이들은 자연어 이해, 코드 생성 및 시각 처리에서 뛰어난 능력을 보여주었습니다. 이는 새로운 세대의 LLM 기반 GUI 에이전트가 복잡한 GUI 요소를 해석하고 자연어 명령에 기반하여 자율적으로 작업을 실행할 수 있는 능력을 열어주었습니다. 이러한 에이전트들은 사용자가 간단한 대화 명령을 통해 복잡한 다단계 작업을 수행할 수 있도록 하는 패러다임 전환을 대표합니다. 이들의 응용 분야는 웹 탐색, 모바일 앱 상호작용 및 데스크톱 자동화를 포함하며, 소프트웨어와 상호작용하는 방식을 혁신적으로 변화시키는 변혁적인 사용자 경험을 제공합니다. 이 신흥 분야는 연구와 산업 모두에서 중요한 진전을 이루고 있습니다. 이 동향을 체계적으로 이해하기 위해, 본 논문은 LLM 기반 GUI 에이전트의 포괄적인 조사를 제시하며, 그들의 역사적 발전, 핵심 구성 요소 및 고급 기술을 탐구합니다. 우리는 기존 GUI 에이전트 프레임워크, 특수 GUI 에이전트를 훈련하기 위한 데이터 수집 및 활용, GUI 작업에 맞춘 대규모 작업 모델의 개발, 그리고 효과를 평가하기 위해 필요한 평가 지표 및 벤치마크와 같은 연구 질문들을 다룹니다. 게다가, 이러한 에이전트가 제공하는 신흥 응용 분야를 검토합니다. 이 조사를 통해 주요 연구 공백을 확인하고 이 분야의 미래 발전을 위한 로드맵을 제시합니다. 이 작업은 기본 지식과 최신 기술 발전을 통합하여, 연구자와 실무자가 도전을 극복하고 LLM 기반 GUI 에이전트의 전체 잠재력을 발휘할 수 있도록 안내하는 것을 목표로 합니다.
English
GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.

Summary

AI-Generated Summary

PDF293November 28, 2024