GUI 시각 에이전트를 위한 Vision-Language-Action 모델인 ShowUI
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
November 26, 2024
저자: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
cs.AI
초록
그래픽 사용자 인터페이스(GUI) 어시스턴트를 구축하는 것은 인간의 작업 효율성을 향상시키는 데 상당한 잠재력을 가지고 있습니다. 대부분의 에이전트는 언어 기반이며, 텍스트 풍부한 메타 정보(예: HTML 또는 접근성 트리)를 사용하는 폐쇄된 소스 API에 의존하고 있지만, 이러한 에이전트들은 인간이 하는 것처럼 UI 시각을 인식하는 데 제한이 있어 GUI 시각 에이전트의 필요성을 강조합니다. 본 연구에서는 디지턈 세계에서 비전-언어-행동 모델인 ShowUI를 개발하였으며, 다음과 같은 혁신을 특징으로 합니다: (i) UI-가이드된 시각 토큰 선택은 스크린샷을 UI 연결 그래프로 공식화하여 계산 비용을 줄이고, 자가 주의 블록 중 토큰 선택의 기준으로 작용하는 중복 관계를 적응적으로 식별함; (ii) 시각-언어-행동 스트리밍을 교차로 통합하여 GUI 작업 내에서 다양한 요구 사항을 유연하게 처리하며, 네비게이션에서 시각-행동 이력을 효과적으로 관리하거나 스크린샷 당 멀티턴 쿼리-행동 시퀀스를 결합하여 교육 효율성을 향상시킵니다; (iii) 소규모 고품질 GUI 지시어 따르기 데이터셋은 신중한 데이터 선별과 데이터 유형 불균형을 해결하기 위한 재표본화 전략을 활용합니다. 위 구성 요소로 구성된 ShowUI는 256K 데이터를 사용하는 가벼운 2B 모델로, 제로샷 스크린샷 그라운딩에서 강력한 75.1% 정확도를 달성합니다. UI-가이드된 토큰 선택은 교육 중 33%의 중복 시각 토큰을 줄이고 성능을 1.4배 높입니다. 웹 Mind2Web, 모바일 AITW 및 온라인 MiniWob 환경을 통해 수행된 네비게이션 실험은 우리 모델의 효과성과 잠재력을 더욱 강조합니다. 해당 모델은 https://github.com/showlab/ShowUI에서 사용할 수 있습니다.
English
Building Graphical User Interface (GUI) assistants holds significant promise
for enhancing human workflow productivity. While most agents are
language-based, relying on closed-source API with text-rich meta-information
(e.g., HTML or accessibility tree), they show limitations in perceiving UI
visuals as humans do, highlighting the need for GUI visual agents. In this
work, we develop a vision-language-action model in digital world, namely
ShowUI, which features the following innovations: (i) UI-Guided Visual Token
Selection to reduce computational costs by formulating screenshots as an UI
connected graph, adaptively identifying their redundant relationship and serve
as the criteria for token selection during self-attention blocks; (ii)
Interleaved Vision-Language-Action Streaming that flexibly unifies diverse
needs within GUI tasks, enabling effective management of visual-action history
in navigation or pairing multi-turn query-action sequences per screenshot to
enhance training efficiency; (iii) Small-scale High-quality GUI
Instruction-following Datasets by careful data curation and employing a
resampling strategy to address significant data type imbalances. With above
components, ShowUI, a lightweight 2B model using 256K data, achieves a strong
75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection
further reduces 33% of redundant visual tokens during training and speeds up
the performance by 1.4x. Navigation experiments across web Mind2Web, mobile
AITW, and online MiniWob environments further underscore the effectiveness and
potential of our model in advancing GUI visual agents. The models are available
at https://github.com/showlab/ShowUI.Summary
AI-Generated Summary