Superare la Barriera dei Dati -- Costruire Agenti GUI Attraverso la Generalizzazione dei Compiti
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Autori: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Abstract
Gli agenti con Interfaccia Grafica (GUI) offrono soluzioni multipiattaforma per l'automazione di compiti digitali complessi, con un potenziale significativo di trasformare i flussi di lavoro produttivi. Tuttavia, le loro prestazioni sono spesso limitate dalla scarsità di dati di traiettoria di alta qualità. Per affrontare questa limitazione, proponiamo di addestrare Modelli di Visione e Linguaggio (VLMs) su compiti ricchi di dati e intensivi dal punto di vista del ragionamento durante una fase dedicata di mid-training, per poi esaminare come l'incorporazione di questi compiti faciliti la generalizzazione agli scenari di pianificazione GUI. Nello specifico, esploriamo una gamma di compiti con dati di instruction-tuning facilmente disponibili, tra cui percezione GUI, ragionamento multimodale e ragionamento testuale. Attraverso esperimenti estesi su 11 compiti di mid-training, dimostriamo che: (1) La generalizzazione dei compiti si rivela altamente efficace, producendo miglioramenti sostanziali nella maggior parte delle configurazioni. Ad esempio, il ragionamento matematico multimodale migliora le prestazioni su AndroidWorld di un assoluto 6,3%. Sorprendentemente, i dati matematici esclusivamente testuali aumentano significativamente le prestazioni degli agenti GUI web, ottenendo un miglioramento del 5,6% su WebArena e del 5,4% su AndroidWorld, sottolineando una notevole generalizzazione cross-modale dai domini testuali a quelli visivi; (2) Contrariamente alle ipotesi precedenti, i dati di percezione GUI - precedentemente considerati strettamente allineati ai compiti degli agenti GUI e ampiamente utilizzati per l'addestramento - hanno un impatto relativamente limitato sulle prestazioni finali; (3) Basandoci su queste intuizioni, identifichiamo i compiti di mid-training più efficaci e curiamo dataset misti ottimizzati, ottenendo miglioramenti assoluti delle prestazioni dell'8,0% su WebArena e del 12,2% su AndroidWorld. Il nostro lavoro fornisce preziose intuizioni sul trasferimento di conoscenze cross-domain per gli agenti GUI e offre un approccio pratico per affrontare le sfide della scarsità di dati in questo campo emergente. Il codice, i dati e i modelli saranno disponibili su https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary