ChatPaper.aiChatPaper

InfiGUIAgent: 원천 추론과 반성을 갖춘 멀티모달 일반 GUI 에이전트

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

January 8, 2025
저자: Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu
cs.AI

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 다중 모달 대형 언어 모델(MLLMs)을 기반으로 하며, 컴퓨터 및 모바일 기기와 같은 컴퓨팅 장치에서의 작업 자동화에 대한 큰 잠재력을 보여주고 있습니다. 그러나 기존의 에이전트들은 다단계 추론과 텍스트 주석에 의존하는 도전에 직면하여 효과적이지 못한 한계가 있습니다. 우리는 InfiGUIAgent를 소개합니다. 이는 두 단계의 지도된 파인튜닝 파이프라인을 통해 훈련된 MLLM 기반 GUI 에이전트입니다. 첫 번째 단계는 GUI 이해와 기초적인 기초를 강화하고, 두 번째 단계는 계층적 추론과 예측-반사 추론 기술을 통합하여 에이전트의 원시적 추론 능력을 가능하게 하는 합성 데이터를 사용합니다. InfiGUIAgent는 여러 GUI 벤치마크에서 경쟁력 있는 성능을 달성하며, 자동화 작업을 위한 GUI 상호작용을 향상시키는 데 원시적 추론 능력의 영향을 강조합니다. 자원은 https://github.com/Reallm-Labs/InfiGUIAgent에서 이용할 수 있습니다.
English
Graphical User Interface (GUI) Agents, powered by multimodal large language models (MLLMs), have shown great potential for task automation on computing devices such as computers and mobile phones. However, existing agents face challenges in multi-step reasoning and reliance on textual annotations, limiting their effectiveness. We introduce InfiGUIAgent, an MLLM-based GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1 enhances fundamental skills such as GUI understanding and grounding, while Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning skills using synthesized data to enable native reasoning abilities of the agents. InfiGUIAgent achieves competitive performance on several GUI benchmarks, highlighting the impact of native reasoning skills in enhancing GUI interaction for automation tasks. Resources are available at https://github.com/Reallm-Labs/InfiGUIAgent.

Summary

AI-Generated Summary

PDF232January 9, 2025