Agenti GUI: Un'Indagine
GUI Agents: A Survey
December 18, 2024
Autori: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Abstract
Gli agenti dell'Interfaccia Utente Grafica (GUI), alimentati da Grandi Modelli Fondamentali, sono emersi come un approccio trasformativo per automatizzare l'interazione uomo-computer. Questi agenti interagiscono autonomamente con sistemi digitali o applicazioni software tramite GUI, emulando azioni umane come clic, scrittura e navigazione degli elementi visivi su piattaforme diverse. Motivati dall'interesse crescente e dall'importanza fondamentale degli agenti GUI, forniamo un'ampia panoramica che categorizza i loro benchmark, metriche di valutazione, architetture e metodi di addestramento. Proponiamo un quadro unificato che delinea le loro capacità di percezione, ragionamento, pianificazione e azione. Inoltre, identifichiamo importanti sfide aperte e discutiamo le principali direzioni future. Infine, questo lavoro funge da base per praticanti e ricercatori per acquisire una comprensione intuitiva dei progressi attuali, delle tecniche, dei benchmark e dei problemi aperti critici che rimangono da affrontare.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.Summary
AI-Generated Summary