ChatPaper.aiChatPaper

Superare la Barriera dei Dati -- Costruire Agenti GUI Attraverso la Generalizzazione dei Compiti

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

April 14, 2025
Autori: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI

Abstract

Gli agenti con Interfaccia Grafica (GUI) offrono soluzioni multipiattaforma per l'automazione di compiti digitali complessi, con un potenziale significativo di trasformare i flussi di lavoro produttivi. Tuttavia, le loro prestazioni sono spesso limitate dalla scarsità di dati di traiettoria di alta qualità. Per affrontare questa limitazione, proponiamo di addestrare Modelli di Visione e Linguaggio (VLMs) su compiti ricchi di dati e intensivi dal punto di vista del ragionamento durante una fase dedicata di mid-training, per poi esaminare come l'incorporazione di questi compiti faciliti la generalizzazione agli scenari di pianificazione GUI. Nello specifico, esploriamo una gamma di compiti con dati di instruction-tuning facilmente disponibili, tra cui percezione GUI, ragionamento multimodale e ragionamento testuale. Attraverso esperimenti estesi su 11 compiti di mid-training, dimostriamo che: (1) La generalizzazione dei compiti si rivela altamente efficace, producendo miglioramenti sostanziali nella maggior parte delle configurazioni. Ad esempio, il ragionamento matematico multimodale migliora le prestazioni su AndroidWorld di un assoluto 6,3%. Sorprendentemente, i dati matematici esclusivamente testuali aumentano significativamente le prestazioni degli agenti GUI web, ottenendo un miglioramento del 5,6% su WebArena e del 5,4% su AndroidWorld, sottolineando una notevole generalizzazione cross-modale dai domini testuali a quelli visivi; (2) Contrariamente alle ipotesi precedenti, i dati di percezione GUI - precedentemente considerati strettamente allineati ai compiti degli agenti GUI e ampiamente utilizzati per l'addestramento - hanno un impatto relativamente limitato sulle prestazioni finali; (3) Basandoci su queste intuizioni, identifichiamo i compiti di mid-training più efficaci e curiamo dataset misti ottimizzati, ottenendo miglioramenti assoluti delle prestazioni dell'8,0% su WebArena e del 12,2% su AndroidWorld. Il nostro lavoro fornisce preziose intuizioni sul trasferimento di conoscenze cross-domain per gli agenti GUI e offre un approccio pratico per affrontare le sfide della scarsità di dati in questo campo emergente. Il codice, i dati e i modelli saranno disponibili su https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Summary

AI-Generated Summary

PDF152April 15, 2025