MostraUI: Un Modello Visione-Linguaggio-Azione per un Agente Visivo GUI
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
Autori: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
Abstract
La creazione di assistenti con Interfaccia Utente Grafica (GUI) promette significativi miglioramenti nella produttività del flusso di lavoro umano. Mentre la maggior parte degli agenti si basa sul linguaggio, facendo affidamento su API closed-source con meta-informazioni ricche di testo (ad esempio, HTML o albero di accessibilità), mostrano limitazioni nella percezione delle interfacce utente come fanno gli esseri umani, evidenziando la necessità di agenti visivi GUI. In questo lavoro, sviluppiamo un modello visione-linguaggio-azione nel mondo digitale, chiamato ShowUI, che presenta le seguenti innovazioni: (i) Selezione di Token Visivi Guidata dall'UI per ridurre i costi computazionali formulando gli screenshot come un grafo connesso UI, identificando in modo adattivo le relazioni ridondanti e servendo come criterio per la selezione dei token durante i blocchi di autoattenzione; (ii) Streaming Intercalato di Visione-Linguaggio-Azione che unifica in modo flessibile diverse esigenze all'interno dei compiti GUI, consentendo una gestione efficace della storia visivo-azione nella navigazione o nell'abbinamento di sequenze di query-azione multi-turno per screenshot per migliorare l'efficienza dell'addestramento; (iii) Set di Dati di Istruzioni GUI di Alta Qualità su Piccola Scala mediante una cura attenta dei dati e l'impiego di una strategia di campionamento per affrontare significative disuguaglianze nei tipi di dati. Con i componenti sopra citati, ShowUI, un modello 2B leggero che utilizza 256K dati, raggiunge un'accuratezza del 75,1% nella localizzazione degli screenshot senza training. La selezione di token guidata dall'UI riduce ulteriormente del 33% i token visivi ridondanti durante l'addestramento e velocizza le prestazioni del 1,4x. Gli esperimenti di navigazione su web Mind2Web, mobile AITW e ambienti online MiniWob sottolineano ulteriormente l'efficacia e il potenziale del nostro modello nel far progredire gli agenti visivi GUI. I modelli sono disponibili su https://github.com/showlab/ShowUI.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary