
WorldGUI: 포괄적인 데스크톱 GUI 자동화를 위한 동적 테스팅

WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

February 12, 2025
저자: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou


현재 GUI 에이전트들은 GUI 요소 그라운딩에서 탁월한 성과를 거두었습니다. 그러나 계획 수립은 초기 환경 상태에 대한 민감성 때문에 여전히 매우 어려운 과제입니다. 특히, 초기 상태에 약간의 차이가 있는 경우-예를 들어 대상 소프트웨어가 열리지 않았거나 인터페이스가 기본 상태가 아닌 경우-계획 오류가 발생하는 경우가 많습니다. 이 문제는 실제 사용자 시나리오에서 널리 퍼져 있지만 기존의 벤치마크는 이를 평가하지 못합니다. 본 논문에서는 실제 컴퓨터-사용자 상호작용을 시뮬레이션하기 위해 다양한 초기 상태로 GUI 작업을 설계하는 새로운 GUI 벤치마크인 WorldGUI를 제안합니다. 이 벤치마크는 PowerPoint, VSCode, Adobe Acrobat을 포함한 10가지 인기 있는 소프트웨어 응용 프로그램에 걸쳐 다양한 작업을 포함하고 있습니다. 또한, 동적 GUI 자동화 작업의 어려움에 대응하기 위해 비판 메커니즘을 활용하는 종합적인 프레임워크인 GUI-Thinker를 제안합니다. 실험 결과는 GUI-Thinker가 WorldGUI 작업의 성공률에서 Claude-3.5 (컴퓨터 사용)를 14.9% 능가한다는 것을 입증합니다. 이 개선은 우리의 비판적 사고 기반 프레임워크가 GUI 자동화를 향상시키는 데 효과적임을 강조합니다.
Current GUI agents have achieved outstanding performance in GUI element grounding. However, planning remains highly challenging, especially due to sensitivity to the initial state of the environment. Specifically, slight differences in the initial state-such as the target software not being open or the interface not being in its default state-often lead to planning errors. This issue is widespread in real user scenarios, but existing benchmarks fail to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that designs GUI tasks with various initial states to simulate real computer-user interactions. The benchmark spans a wide range of tasks across 10 popular software applications, including PowerPoint, VSCode, and Adobe Acrobat. In addition, to address the challenges of dynamic GUI automation tasks, we propose GUI-Thinker, a holistic framework, leveraging a critique mechanism, that effectively manages the unpredictability and complexity of GUI interactions. Experimental results demonstrate that GUI-Thinker significantly outperforms Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This improvement underscores the effectiveness of our critical-thinking-based framework in enhancing GUI automation.


AI-Generated Summary

PDF253February 13, 2025