ChatPaper.aiChatPaper

에이전트트렉: 웹 튜토리얼을 활용한 에이전트 궤적 합성을 위한 가이딩 리플레이

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

December 12, 2024
저자: Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu
cs.AI

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 웹 응용 프로그램에서부터 데스크톱 소프트웨어까지 다양한 디지털 환경에서 복잡한 작업을 자동화하는 데 큰 잠재력을 가지고 있습니다. 그러나 이러한 에이전트의 개발은 효과적인 훈련에 필요한 고품질의 다단계 궤적 데이터 부족으로 어렵습니다. 기존 접근 방식은 비용이 많이 들고 노동 집약적인 인간 주석에 의존하여 규모에 맞지 않습니다. 이러한 도전 과제를 해결하기 위해, 우리는 AgentTrek을 제안합니다. 이는 웹 튜토리얼을 활용하여 고품질 GUI 에이전트 궤적을 생성하는 확장 가능한 데이터 합성 파이프라인입니다. 우리의 방법은 자동으로 인터넷에서 튜토리얼과 유사한 텍스트를 수집하고, 이를 단계별 지침을 가진 작업 목표로 변환하며, 시각 언어 모델 에이전트를 활용하여 실제 디지털 환경에서 실행을 모방합니다. VLM 기반 평가자는 생성된 궤적의 정확성을 보장합니다. 우리는 이러한 합성된 궤적으로 GUI 에이전트를 훈련시키면 현재 모델보다 그들의 기반 및 계획 성능이 크게 향상된다는 것을 증명합니다. 게다가, 우리의 방법은 전통적인 인간 주석 방법과 비교하여 더 비용 효율적입니다. 이 연구는 대규모 GUI 에이전트 훈련을 위한 웹 튜토리얼을 활용한 안내형 재생이 더 능력 있는 자율적 디지털 에이전트를 위한 길을 열어줄 수 있는 가능성을 강조합니다.
English
Graphical User Interface (GUI) agents hold great potential for automating complex tasks across diverse digital environments, from web applications to desktop software. However, the development of such agents is hindered by the lack of high-quality, multi-step trajectory data required for effective training. Existing approaches rely on expensive and labor-intensive human annotation, making them unsustainable at scale. To address this challenge, we propose AgentTrek, a scalable data synthesis pipeline that generates high-quality GUI agent trajectories by leveraging web tutorials. Our method automatically gathers tutorial-like texts from the internet, transforms them into task goals with step-by-step instructions, and employs a visual-language model agent to simulate their execution in a real digital environment. A VLM-based evaluator ensures the correctness of the generated trajectories. We demonstrate that training GUI agents with these synthesized trajectories significantly improves their grounding and planning performance over the current models. Moreover, our approach is more cost-efficient compared to traditional human annotation methods. This work underscores the potential of guided replay with web tutorials as a viable strategy for large-scale GUI agent training, paving the way for more capable and autonomous digital agents.
PDF282December 13, 2024