InfiGUIAgent: un agente GUI generalista multimodale con ragionamento e riflessione nativi

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

January 8, 2025
Autori: Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu
cs.AI

Abstract

Gli Agenti dell'Interfaccia Utente Grafica (GUI), alimentati da modelli di linguaggio multimodali di grandi dimensioni (MLLM), hanno mostrato un grande potenziale per l'automazione delle attività sui dispositivi informatici come computer e telefoni cellulari. Tuttavia, gli agenti esistenti affrontano sfide nel ragionamento a più passaggi e nella dipendenza dalle annotazioni testuali, limitandone l'efficacia. Presentiamo InfiGUIAgent, un Agente GUI basato su MLLM addestrato con un sistema di affinamento supervisionato a due fasi. La Fase 1 potenzia le competenze fondamentali come la comprensione e l'ancoraggio dell'interfaccia grafica, mentre la Fase 2 integra il ragionamento gerarchico e il ragionamento per riflessione sulle aspettative utilizzando dati sintetizzati per abilitare le capacità di ragionamento native degli agenti. InfiGUIAgent raggiunge prestazioni competitive su diversi benchmark GUI, evidenziando l'impatto delle capacità di ragionamento native nel migliorare l'interazione GUI per le attività di automazione. Le risorse sono disponibili su https://github.com/Reallm-Labs/InfiGUIAgent.
English
Graphical User Interface (GUI) Agents, powered by multimodal large language models (MLLMs), have shown great potential for task automation on computing devices such as computers and mobile phones. However, existing agents face challenges in multi-step reasoning and reliance on textual annotations, limiting their effectiveness. We introduce InfiGUIAgent, an MLLM-based GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1 enhances fundamental skills such as GUI understanding and grounding, while Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning skills using synthesized data to enable native reasoning abilities of the agents. InfiGUIAgent achieves competitive performance on several GUI benchmarks, highlighting the impact of native reasoning skills in enhancing GUI interaction for automation tasks. Resources are available at https://github.com/Reallm-Labs/InfiGUIAgent.

Summary

AI-Generated Summary

PDF222January 9, 2025