Agentes de Interface Gráfica do Usuário: Uma Pesquisa
GUI Agents: A Survey
December 18, 2024
Autores: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Resumo
Agentes de Interface Gráfica do Usuário (GUI), impulsionados por Modelos de Fundação de Grande Escala, surgiram como uma abordagem transformadora para automatizar a interação humano-computador. Esses agentes interagem autonomamente com sistemas digitais ou aplicativos de software por meio de GUIs, emulando ações humanas como clicar, digitar e navegar por elementos visuais em diversas plataformas. Motivados pelo crescente interesse e importância fundamental dos agentes de GUI, fornecemos uma pesquisa abrangente que categoriza seus benchmarks, métricas de avaliação, arquiteturas e métodos de treinamento. Propomos um framework unificado que delimita suas capacidades de percepção, raciocínio, planejamento e ação. Além disso, identificamos importantes desafios em aberto e discutimos direções futuras-chave. Por fim, este trabalho serve como base para profissionais e pesquisadores obterem uma compreensão intuitiva do progresso atual, técnicas, benchmarks e problemas abertos críticos que ainda precisam ser abordados.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.Summary
AI-Generated Summary