PC エージェント:あなたが眠っている間、AI が作業を行います -- デジタル世界への認知的旅路
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
December 23, 2024
著者: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI
要旨
AIがあなたの仕事を処理する世界を想像してみてください - 研究資料を整理したり、レポートを起案したり、明日必要なプレゼンテーションを作成したりする間、あなたは眠っています。ただし、現在のデジタルエージェントは単純なタスクを実行できるものの、人間が日常的に行う複雑な実世界の仕事を処理する能力には程遠いです。私たちは、人間の認知を移転することを通じてこのビジョンに向けた重要な一歩を示すAIシステムであるPCエージェントを提案します。私たちの主要な洞察は、単純な「タスク」の実行から複雑な「仕事」の処理への道は、コンピュータの使用中に人間の認知プロセスを効率的に捉えて学ぶことにあるということです。この仮説を検証するために、次の3つの主要な革新を導入します:(1)高品質な人間-コンピュータ相互作用軌跡を完全な認知コンテキストで効率的に収集する軽量なインフラストラクチャであるPCトラッカー;(2)アクションの意味論と思考プロセスを完了して、生の相互作用データを豊かな認知軌跡に変換する2段階の認知完了パイプライン;および(3)意思決定のための計画エージェントと堅牢なビジュアルグラウンディングのためのグラウンディングエージェントを組み合わせたマルチエージェントシステム。PowerPointプレゼンテーション作成における初期実験では、わずか133の認知軌跡で訓練されたPCエージェントが、複数のアプリケーションをまたいで最大50のステップにわたる洗練された作業シナリオを処理できることが示されました。これは、私たちのアプローチのデータ効率性を示し、能力のあるデジタルエージェントを訓練する鍵は人間の認知データの収集にあることを強調しています。データ収集インフラストラクチャや認知完了方法を含む完全なフレームワークをオープンソース化することで、研究コミュニティに本当に能力のあるデジタルエージェントを開発する障壁を下げることを目指しています。
English
Imagine a world where AI can handle your work while you sleep - organizing
your research materials, drafting a report, or creating a presentation you need
for tomorrow. However, while current digital agents can perform simple tasks,
they are far from capable of handling the complex real-world work that humans
routinely perform. We present PC Agent, an AI system that demonstrates a
crucial step toward this vision through human cognition transfer. Our key
insight is that the path from executing simple "tasks" to handling complex
"work" lies in efficiently capturing and learning from human cognitive
processes during computer use. To validate this hypothesis, we introduce three
key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently
collects high-quality human-computer interaction trajectories with complete
cognitive context; (2) a two-stage cognition completion pipeline that
transforms raw interaction data into rich cognitive trajectories by completing
action semantics and thought processes; and (3) a multi-agent system combining
a planning agent for decision-making with a grounding agent for robust visual
grounding. Our preliminary experiments in PowerPoint presentation creation
reveal that complex digital work capabilities can be achieved with a small
amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive
trajectories, can handle sophisticated work scenarios involving up to 50 steps
across multiple applications. This demonstrates the data efficiency of our
approach, highlighting that the key to training capable digital agents lies in
collecting human cognitive data. By open-sourcing our complete framework,
including the data collection infrastructure and cognition completion methods,
we aim to lower the barriers for the research community to develop truly
capable digital agents.Summary
AI-Generated Summary