TheAgentCompany: Avaliação de Agentes LLM em Tarefas Consequenciais do Mundo Real
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
December 18, 2024
Autores: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI
Resumo
Interagimos com computadores diariamente, seja na vida cotidiana ou no trabalho, e muitos aspectos do trabalho podem ser realizados inteiramente com acesso a um computador e à Internet. Ao mesmo tempo, graças às melhorias em grandes modelos de linguagem (LLMs), também houve um rápido desenvolvimento em agentes de IA que interagem e afetam mudanças em seus ambientes circundantes. Mas quão eficientes são os agentes de IA em ajudar a acelerar ou até mesmo realizar autonomamente tarefas relacionadas ao trabalho? A resposta a essa pergunta tem implicações importantes tanto para a indústria que busca adotar a IA em seus fluxos de trabalho, quanto para a política econômica entender os efeitos que a adoção de IA pode ter no mercado de trabalho. Para medir o progresso do desempenho desses agentes LLM na realização de tarefas profissionais do mundo real, neste artigo, apresentamos TheAgentCompany, um benchmark extensível para avaliar agentes de IA que interagem com o mundo de maneiras semelhantes às de um trabalhador digital: navegando na Web, escrevendo código, executando programas e se comunicando com outros colegas de trabalho. Construímos um ambiente autocontido com sites e dados internos que imitam um ambiente de uma pequena empresa de software e criamos uma variedade de tarefas que podem ser realizadas por trabalhadores em tal empresa. Testamos agentes de referência alimentados tanto por modelos de linguagem (LMs) baseados em API fechada quanto por modelos de linguagem com pesos abertos, e descobrimos que com o agente mais competitivo, 24% das tarefas podem ser concluídas autonomamente. Isso desenha um quadro detalhado sobre a automação de tarefas com agentes LM - em um cenário simulando um local de trabalho real, uma boa parte das tarefas mais simples poderia ser resolvida autonomamente, mas tarefas mais difíceis de longo prazo ainda estão além do alcance dos sistemas atuais.
English
We interact with computers on an everyday basis, be it in everyday life or
work, and many aspects of work can be done entirely with access to a computer
and the Internet. At the same time, thanks to improvements in large language
models (LLMs), there has also been a rapid development in AI agents that
interact with and affect change in their surrounding environments. But how
performant are AI agents at helping to accelerate or even autonomously perform
work-related tasks? The answer to this question has important implications for
both industry looking to adopt AI into their workflows, and for economic policy
to understand the effects that adoption of AI may have on the labor market. To
measure the progress of these LLM agents' performance on performing real-world
professional tasks, in this paper, we introduce TheAgentCompany, an extensible
benchmark for evaluating AI agents that interact with the world in similar ways
to those of a digital worker: by browsing the Web, writing code, running
programs, and communicating with other coworkers. We build a self-contained
environment with internal web sites and data that mimics a small software
company environment, and create a variety of tasks that may be performed by
workers in such a company. We test baseline agents powered by both closed
API-based and open-weights language models (LMs), and find that with the most
competitive agent, 24% of the tasks can be completed autonomously. This paints
a nuanced picture on task automation with LM agents -- in a setting simulating
a real workplace, a good portion of simpler tasks could be solved autonomously,
but more difficult long-horizon tasks are still beyond the reach of current
systems.Summary
AI-Generated Summary