OS-Genesis: 역 과제 합성을 통한 GUI 에이전트 궤적 구축 자동화
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
December 27, 2024
저자: Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu
cs.AI
초록
시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 한 그래픽 사용자 인터페이스(GUI) 에이전트들은 인간과 유사한 컴퓨터 제어 능력을 보여주었습니다. 디지털 자동화를 발전시키는 데 유용하다는 점에도 불구하고, 훈련을 위한 고품질 궤적 데이터 수집이라는 중요한 병목 현상이 지속되고 있습니다. 이러한 데이터를 수집하는 일반적인 방법은 인간 감독이나 사전 정의된 작업을 실행하여 합성 데이터를 생성하는 데 의존하는데, 이는 자원 소모가 많거나 데이터 품질을 보장할 수 없는 문제가 있습니다. 게다가, 이러한 방법들은 합성 데이터와 실제 환경 간의 한계와 상당한 간극을 겪고 있습니다. 이러한 도전에 대처하기 위해, 우리는 기존의 궤적 수집 과정을 역전시키는 혁신적인 GUI 데이터 합성 파이프라인인 OS-Genesis를 제안합니다. 사전 정의된 작업에 의존하는 대신, OS-Genesis는 에이전트가 먼저 환경을 인식하고 단계별 상호 작용을 수행한 후 궤적 수준의 탐색을 가능하게 하는 고품질 작업을 후향적으로 도출합니다. 그런 다음 궤적 보상 모델을 활용하여 생성된 궤적의 품질을 보장합니다. OS-Genesis를 사용하여 GUI 에이전트를 훈련시키면 매우 어려운 온라인 벤치마크에서 그들의 성능이 크게 향상되는 것을 입증합니다. 심층 분석은 더 나아가, 기존의 합성 방법과 비교하여 OS-Genesis의 효율성 및 우수한 데이터 품질과 다양성을 검증합니다. 우리의 코드, 데이터 및 체크포인트는 다음 링크에서 확인할 수 있습니다: https://qiushisun.github.io/OS-Genesis-Home/{OS-Genesis 홈페이지}.
English
Graphical User Interface (GUI) agents powered by Vision-Language Models
(VLMs) have demonstrated human-like computer control capability. Despite their
utility in advancing digital automation, a critical bottleneck persists:
collecting high-quality trajectory data for training. Common practices for
collecting such data rely on human supervision or synthetic data generation
through executing pre-defined tasks, which are either resource-intensive or
unable to guarantee data quality. Moreover, these methods suffer from limited
data diversity and significant gaps between synthetic data and real-world
environments. To address these challenges, we propose OS-Genesis, a novel GUI
data synthesis pipeline that reverses the conventional trajectory collection
process. Instead of relying on pre-defined tasks, OS-Genesis enables agents
first to perceive environments and perform step-wise interactions, then
retrospectively derive high-quality tasks to enable trajectory-level
exploration. A trajectory reward model is then employed to ensure the quality
of the generated trajectories. We demonstrate that training GUI agents with
OS-Genesis significantly improves their performance on highly challenging
online benchmarks. In-depth analysis further validates OS-Genesis's efficiency
and its superior data quality and diversity compared to existing synthesis
methods. Our codes, data, and checkpoints are available at
https://qiushisun.github.io/OS-Genesis-Home/{OS-Genesis Homepage}.Summary
AI-Generated Summary