Superare la Barriera dei Dati -- Costruire Agenti GUI Attraverso la Generalizzazione dei Compiti

Abstract

Gli agenti con Interfaccia Grafica (GUI) offrono soluzioni multipiattaforma per l'automazione di compiti digitali complessi, con un potenziale significativo di trasformare i flussi di lavoro produttivi. Tuttavia, le loro prestazioni sono spesso limitate dalla scarsità di dati di traiettoria di alta qualità. Per affrontare questa limitazione, proponiamo di addestrare Modelli di Visione e Linguaggio (VLMs) su compiti ricchi di dati e intensivi dal punto di vista del ragionamento durante una fase dedicata di mid-training, per poi esaminare come l'incorporazione di questi compiti faciliti la generalizzazione agli scenari di pianificazione GUI. Nello specifico, esploriamo una gamma di compiti con dati di instruction-tuning facilmente disponibili, tra cui percezione GUI, ragionamento multimodale e ragionamento testuale. Attraverso esperimenti estesi su 11 compiti di mid-training, dimostriamo che: (1) La generalizzazione dei compiti si rivela altamente efficace, producendo miglioramenti sostanziali nella maggior parte delle configurazioni. Ad esempio, il ragionamento matematico multimodale migliora le prestazioni su AndroidWorld di un assoluto 6,3%. Sorprendentemente, i dati matematici esclusivamente testuali aumentano significativamente le prestazioni degli agenti GUI web, ottenendo un miglioramento del 5,6% su WebArena e del 5,4% su AndroidWorld, sottolineando una notevole generalizzazione cross-modale dai domini testuali a quelli visivi; (2) Contrariamente alle ipotesi precedenti, i dati di percezione GUI - precedentemente considerati strettamente allineati ai compiti degli agenti GUI e ampiamente utilizzati per l'addestramento - hanno un impatto relativamente limitato sulle prestazioni finali; (3) Basandoci su queste intuizioni, identifichiamo i compiti di mid-training più efficaci e curiamo dataset misti ottimizzati, ottenendo miglioramenti assoluti delle prestazioni dell'8,0% su WebArena e del 12,2% su AndroidWorld. Il nostro lavoro fornisce preziose intuizioni sul trasferimento di conoscenze cross-domain per gli agenti GUI e offre un approccio pratico per affrontare le sfide della scarsità di dati in questo campo emergente. Il codice, i dati e i modelli saranno disponibili su https://github.com/hkust-nlp/GUIMid.

English

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Superare la Barriera dei Dati -- Costruire Agenti GUI Attraverso la Generalizzazione dei Compiti

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Abstract

Summary

Support

Support