Agente PC: Mentre Dormi, l'IA Lavora -- Un Viaggio Cognitivo nel Mondo Digitale

PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

December 23, 2024
Autori: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI

Abstract

Immagina un mondo in cui l'IA può gestire il tuo lavoro mentre dormi - organizzare i tuoi materiali di ricerca, redigere un rapporto o creare una presentazione di cui hai bisogno per domani. Tuttavia, se gli attuali agenti digitali possono svolgere compiti semplici, sono ben lontani dall'essere in grado di gestire il complesso lavoro del mondo reale che gli esseri umani svolgono abitualmente. Presentiamo PC Agent, un sistema di intelligenza artificiale che dimostra un passo cruciale verso questa visione attraverso il trasferimento della cognizione umana. La nostra intuizione chiave è che il passaggio dall'esecuzione di "compiti" semplici alla gestione di "lavori" complessi risiede nel catturare ed apprendere in modo efficiente dai processi cognitivi umani durante l'uso del computer. Per convalidare questa ipotesi, introduciamo tre innovazioni chiave: (1) PC Tracker, un'infrastruttura leggera che raccoglie in modo efficiente traiettorie di interazione uomo-computer di alta qualità con contesto cognitivo completo; (2) un pipeline di completamento della cognizione a due fasi che trasforma i dati grezzi di interazione in ricche traiettorie cognitive completando semantica delle azioni e processi mentali; e (3) un sistema multi-agente che combina un agente di pianificazione per la presa di decisioni con un agente di grounding per un robusto ancoraggio visivo. I nostri esperimenti preliminari nella creazione di presentazioni PowerPoint rivelano che le capacità di lavoro digitale complesso possono essere raggiunte con una piccola quantità di dati cognitivi di alta qualità - PC Agent, addestrato su sole 133 traiettorie cognitive, può gestire scenari di lavoro sofisticati che coinvolgono fino a 50 passaggi attraverso diverse applicazioni. Ciò dimostra l'efficienza dei dati del nostro approccio, evidenziando che la chiave per addestrare agenti digitali capaci risiede nella raccolta di dati cognitivi umani. Condividendo in open source il nostro framework completo, compresa l'infrastruttura di raccolta dati e i metodi di completamento della cognizione, miriamo a abbassare le barriere per la comunità di ricerca nello sviluppare agenti digitali veramente capaci.
English
Imagine a world where AI can handle your work while you sleep - organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple "tasks" to handling complex "work" lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.

Summary

AI-Generated Summary

PDF122December 24, 2024