Agente de PC: Enquanto Você Dorme, a IA Trabalha - Uma Jornada Cognitiva no Mundo Digital

PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

December 23, 2024
Autores: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI

Resumo

Imagine um mundo onde a IA pode lidar com o seu trabalho enquanto você dorme - organizando seus materiais de pesquisa, redigindo um relatório ou criando uma apresentação que você precisa para o dia seguinte. No entanto, embora os agentes digitais atuais possam realizar tarefas simples, estão longe de ser capazes de lidar com o trabalho complexo do mundo real que os humanos realizam rotineiramente. Apresentamos o Agente PC, um sistema de IA que demonstra um passo crucial em direção a essa visão por meio da transferência de cognição humana. Nosso insight chave é que o caminho, desde a execução de "tarefas" simples até o manuseio de "trabalho" complexo, está em capturar e aprender de forma eficiente os processos cognitivos humanos durante o uso do computador. Para validar essa hipótese, introduzimos três inovações principais: (1) Rastreador PC, uma infraestrutura leve que coleta de forma eficiente trajetórias de interação humano-computador de alta qualidade com contexto cognitivo completo; (2) um pipeline de conclusão de cognição em duas etapas que transforma dados brutos de interação em trajetórias cognitivas ricas completando semântica de ação e processos de pensamento; e (3) um sistema multiagente que combina um agente de planejamento para tomada de decisão com um agente de fundamentação para fundamentação visual robusta. Nossos experimentos preliminares na criação de apresentações do PowerPoint revelam que capacidades de trabalho digital complexas podem ser alcançadas com uma pequena quantidade de dados cognitivos de alta qualidade - o Agente PC, treinado em apenas 133 trajetórias cognitivas, pode lidar com cenários de trabalho sofisticados envolvendo até 50 etapas em várias aplicações. Isso demonstra a eficiência de dados de nossa abordagem, destacando que a chave para treinar agentes digitais capazes está em coletar dados cognitivos humanos. Ao disponibilizar nosso framework completo de código aberto, incluindo a infraestrutura de coleta de dados e os métodos de conclusão de cognição, nosso objetivo é reduzir as barreiras para a comunidade de pesquisa desenvolver agentes digitais verdadeiramente capazes.
English
Imagine a world where AI can handle your work while you sleep - organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple "tasks" to handling complex "work" lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.

Summary

AI-Generated Summary

PDF122December 24, 2024