TheAgentCompany: Valutazione delle Prestazioni degli Agenti LLM su Compiti Concreti del Mondo Reale con Conseguenze
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
December 18, 2024
Autori: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI
Abstract
Interagiamo con i computer quotidianamente, sia nella vita di tutti i giorni che nel lavoro, e molti aspetti lavorativi possono essere svolti interamente con accesso a un computer e a Internet. Allo stesso tempo, grazie ai miglioramenti nei grandi modelli linguistici (LLM), c'è stato anche un rapido sviluppo negli agenti di intelligenza artificiale che interagiscono e influenzano il cambiamento nei loro ambienti circostanti. Ma quanto sono performanti gli agenti di intelligenza artificiale nel contribuire ad accelerare o addirittura eseguire autonomamente compiti legati al lavoro? La risposta a questa domanda ha importanti implicazioni sia per l'industria che intende adottare l'intelligenza artificiale nei propri flussi di lavoro, sia per le politiche economiche per comprendere gli effetti che l'adozione dell'intelligenza artificiale potrebbe avere sul mercato del lavoro. Per misurare i progressi delle performance di questi agenti LLM nell'esecuzione di compiti professionali reali, in questo articolo presentiamo TheAgentCompany, un benchmark estensibile per valutare gli agenti di intelligenza artificiale che interagiscono con il mondo in modi simili a quelli di un lavoratore digitale: navigando sul Web, scrivendo codice, eseguendo programmi e comunicando con altri colleghi. Creiamo un ambiente autonomo con siti web interni e dati che imitano un ambiente di una piccola azienda software e creiamo una varietà di compiti che potrebbero essere svolti dai lavoratori in un'azienda del genere. Testiamo agenti di base alimentati sia da modelli linguistici (LM) basati su API chiuse che da modelli linguistici con pesi aperti, e scopriamo che con l'agente più competitivo, il 24% dei compiti può essere completato autonomamente. Questo dipinge un quadro sfumato sull'automazione dei compiti con gli agenti LM: in un contesto che simula un ambiente di lavoro reale, una buona parte dei compiti più semplici potrebbe essere risolta autonomamente, ma i compiti più difficili a lungo termine sono ancora al di là della portata dei sistemi attuali.
English
We interact with computers on an everyday basis, be it in everyday life or
work, and many aspects of work can be done entirely with access to a computer
and the Internet. At the same time, thanks to improvements in large language
models (LLMs), there has also been a rapid development in AI agents that
interact with and affect change in their surrounding environments. But how
performant are AI agents at helping to accelerate or even autonomously perform
work-related tasks? The answer to this question has important implications for
both industry looking to adopt AI into their workflows, and for economic policy
to understand the effects that adoption of AI may have on the labor market. To
measure the progress of these LLM agents' performance on performing real-world
professional tasks, in this paper, we introduce TheAgentCompany, an extensible
benchmark for evaluating AI agents that interact with the world in similar ways
to those of a digital worker: by browsing the Web, writing code, running
programs, and communicating with other coworkers. We build a self-contained
environment with internal web sites and data that mimics a small software
company environment, and create a variety of tasks that may be performed by
workers in such a company. We test baseline agents powered by both closed
API-based and open-weights language models (LMs), and find that with the most
competitive agent, 24% of the tasks can be completed autonomously. This paints
a nuanced picture on task automation with LM agents -- in a setting simulating
a real workplace, a good portion of simpler tasks could be solved autonomously,
but more difficult long-horizon tasks are still beyond the reach of current
systems.Summary
AI-Generated Summary