PC 에이전트: 당신이 잠을 자는 동안, AI가 작동합니다 - 디지털 세계로의 인지적 여행
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
December 23, 2024
저자: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI
초록
AI가 당신이 잠을 자는 동안 일을 처리할 수 있는 세상을 상상해보십시오 - 연구 자료를 정리하거나 보고서를 작성하거나 내일 필요한 프레젠테이션을 만들어줍니다. 그러나 현재의 디지털 에이전트는 간단한 작업을 수행할 수는 있지만, 인간이 일상적으로 수행하는 복잡한 실제 작업을 처리할 만큼 능숙하지는 못합니다. 우리는 인간 인지 전이를 통해 이러한 비전으로 나아가는 중요한 한 걸음을 보여주는 AI 시스템인 PC Agent를 제시합니다. 우리의 주요 통찰은 간단한 "작업"을 실행하는 것에서 복잡한 "작업"을 처리하는 것으로의 길이 컴퓨터 사용 중에 인간의 인지 과정을 효율적으로 포착하고 학습하는 데 있음을 내포하고 있습니다. 이 가설을 검증하기 위해 우리는 세 가지 주요 혁신을 소개합니다: (1) 고품질 인간-컴퓨터 상호작용 경로를 완전한 인지 맥락과 함께 효율적으로 수집하는 경량 인프라인 PC Tracker; (2) 원시 상호작용 데이터를 행동 의미론과 사고 과정을 완성함으로써 풍부한 인지 경로로 변환하는 이단계 인지 완성 파이프라인; 그리고 (3) 의사 결정을 위한 계획 에이전트와 견고한 시각적 기반을 위한 기반 에이전트를 결합한 다중 에이전트 시스템. 파워포인트 프레젠테이션 작성에 대한 초기 실험에서, 133개의 인지 경로로 훈련된 PC Agent는 여러 응용 프로그램을 통해 50단계에 걸친 복잡한 작업 시나리오를 처리할 수 있음을 보여주었습니다. 이는 우리의 접근법의 데이터 효율성을 입증하며, 능숙한 디지털 에이전트를 훈련하는 핵심이 인간의 인지 데이터 수집에 있다는 점을 강조합니다. 우리의 완전한 프레임워크, 데이터 수집 인프라 및 인지 완성 방법을 공개함으로써, 연구 커뮤니티가 실제로 능숙한 디지털 에이전트를 개발하는 데 대한 장벽을 낮추고자 합니다.
English
Imagine a world where AI can handle your work while you sleep - organizing
your research materials, drafting a report, or creating a presentation you need
for tomorrow. However, while current digital agents can perform simple tasks,
they are far from capable of handling the complex real-world work that humans
routinely perform. We present PC Agent, an AI system that demonstrates a
crucial step toward this vision through human cognition transfer. Our key
insight is that the path from executing simple "tasks" to handling complex
"work" lies in efficiently capturing and learning from human cognitive
processes during computer use. To validate this hypothesis, we introduce three
key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently
collects high-quality human-computer interaction trajectories with complete
cognitive context; (2) a two-stage cognition completion pipeline that
transforms raw interaction data into rich cognitive trajectories by completing
action semantics and thought processes; and (3) a multi-agent system combining
a planning agent for decision-making with a grounding agent for robust visual
grounding. Our preliminary experiments in PowerPoint presentation creation
reveal that complex digital work capabilities can be achieved with a small
amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive
trajectories, can handle sophisticated work scenarios involving up to 50 steps
across multiple applications. This demonstrates the data efficiency of our
approach, highlighting that the key to training capable digital agents lies in
collecting human cognitive data. By open-sourcing our complete framework,
including the data collection infrastructure and cognition completion methods,
we aim to lower the barriers for the research community to develop truly
capable digital agents.