AgentTrek: Sintesi della traiettoria dell'agente tramite Guiding Replay con Tutorial Web

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

December 12, 2024
Autori: Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu
cs.AI

Abstract

Gli agenti dell'Interfaccia Utente Grafica (GUI) hanno un grande potenziale per automatizzare compiti complessi in diversi ambienti digitali, dalle applicazioni web ai software desktop. Tuttavia, lo sviluppo di tali agenti è ostacolato dalla mancanza di dati di traiettoria multi-step di alta qualità necessari per un addestramento efficace. Gli approcci esistenti si basano su annotazioni umane costose e laboriose, rendendoli non sostenibili su larga scala. Per affrontare questa sfida, proponiamo AgentTrek, un sistema di sintesi dati scalabile che genera traiettorie di agenti GUI di alta qualità sfruttando tutorial web. Il nostro metodo raccoglie automaticamente testi simili a tutorial da internet, li trasforma in obiettivi di attività con istruzioni passo-passo e utilizza un agente modello di linguaggio visivo per simulare la loro esecuzione in un ambiente digitale reale. Un valutatore basato su VLM garantisce la correttezza delle traiettorie generate. Dimostriamo che addestrare agenti GUI con queste traiettorie sintetizzate migliora significativamente la loro base e le prestazioni di pianificazione rispetto ai modelli attuali. Inoltre, il nostro approccio è più efficiente in termini di costi rispetto ai metodi tradizionali di annotazione umana. Questo lavoro sottolinea il potenziale del replay guidato con tutorial web come strategia valida per l'addestramento su larga scala degli agenti GUI, aprendo la strada a agenti digitali più capaci e autonomi.
English
Graphical User Interface (GUI) agents hold great potential for automating complex tasks across diverse digital environments, from web applications to desktop software. However, the development of such agents is hindered by the lack of high-quality, multi-step trajectory data required for effective training. Existing approaches rely on expensive and labor-intensive human annotation, making them unsustainable at scale. To address this challenge, we propose AgentTrek, a scalable data synthesis pipeline that generates high-quality GUI agent trajectories by leveraging web tutorials. Our method automatically gathers tutorial-like texts from the internet, transforms them into task goals with step-by-step instructions, and employs a visual-language model agent to simulate their execution in a real digital environment. A VLM-based evaluator ensures the correctness of the generated trajectories. We demonstrate that training GUI agents with these synthesized trajectories significantly improves their grounding and planning performance over the current models. Moreover, our approach is more cost-efficient compared to traditional human annotation methods. This work underscores the potential of guided replay with web tutorials as a viable strategy for large-scale GUI agent training, paving the way for more capable and autonomous digital agents.

Summary

AI-Generated Summary

PDF282December 13, 2024