ChatPaper.aiChatPaper

PC-Agent: PC에서의 복잡한 작업 자동화를 위한 계층적 다중 에이전트 협업 프레임워크

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

February 20, 2025
저자: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI

초록

MLLM 기반 GUI 에이전트 분야에서, 스마트폰과 비교했을 때 PC 시나리오는 더 복잡한 상호작용 환경을 특징으로 할 뿐만 아니라, 더 정교한 앱 내부 및 앱 간 워크플로우를 포함합니다. 이러한 문제를 해결하기 위해, 우리는 PC-Agent라는 계층적 에이전트 프레임워크를 제안합니다. 구체적으로, 인식 측면에서 현재 MLLM의 스크린샷 내용 인식 능력 부족을 극복하기 위해 Active Perception Module(APM)을 설계했습니다. 의사결정 측면에서는 복잡한 사용자 지시와 상호 의존적인 하위 작업을 더 효과적으로 처리하기 위해, 의사결정 프로세스를 Instruction-Subtask-Action 수준으로 분해하는 계층적 다중 에이전트 협업 아키텍처를 제안합니다. 이 아키텍처 내에서, 지시 분해, 진행 상황 추적 및 단계별 의사결정을 각각 담당하는 세 가지 에이전트(Manager, Progress, Decision)가 설정됩니다. 또한, Reflection 에이전트를 도입하여 시기적절한 하향식 오류 피드백과 조정이 가능하도록 했습니다. 우리는 또한 25개의 실제 복잡한 지시를 포함한 새로운 벤치마크 PC-Eval을 소개합니다. PC-Eval에 대한 실험 결과, 우리의 PC-Agent는 기존 최첨단 방법 대비 작업 성공률에서 32%의 절대적 개선을 달성했습니다. 코드는 공개될 예정입니다.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

Summary

AI-Generated Summary

PDF142February 21, 2025