TheAgentCompany: Valutazione delle Prestazioni degli Agenti LLM su Compiti Concreti del Mondo Reale con Conseguenze

Abstract

Interagiamo con i computer quotidianamente, sia nella vita di tutti i giorni che nel lavoro, e molti aspetti lavorativi possono essere svolti interamente con accesso a un computer e a Internet. Allo stesso tempo, grazie ai miglioramenti nei grandi modelli linguistici (LLM), c'è stato anche un rapido sviluppo negli agenti di intelligenza artificiale che interagiscono e influenzano il cambiamento nei loro ambienti circostanti. Ma quanto sono performanti gli agenti di intelligenza artificiale nel contribuire ad accelerare o addirittura eseguire autonomamente compiti legati al lavoro? La risposta a questa domanda ha importanti implicazioni sia per l'industria che intende adottare l'intelligenza artificiale nei propri flussi di lavoro, sia per le politiche economiche per comprendere gli effetti che l'adozione dell'intelligenza artificiale potrebbe avere sul mercato del lavoro. Per misurare i progressi delle performance di questi agenti LLM nell'esecuzione di compiti professionali reali, in questo articolo presentiamo TheAgentCompany, un benchmark estensibile per valutare gli agenti di intelligenza artificiale che interagiscono con il mondo in modi simili a quelli di un lavoratore digitale: navigando sul Web, scrivendo codice, eseguendo programmi e comunicando con altri colleghi. Creiamo un ambiente autonomo con siti web interni e dati che imitano un ambiente di una piccola azienda software e creiamo una varietà di compiti che potrebbero essere svolti dai lavoratori in un'azienda del genere. Testiamo agenti di base alimentati sia da modelli linguistici (LM) basati su API chiuse che da modelli linguistici con pesi aperti, e scopriamo che con l'agente più competitivo, il 24% dei compiti può essere completato autonomamente. Questo dipinge un quadro sfumato sull'automazione dei compiti con gli agenti LM: in un contesto che simula un ambiente di lavoro reale, una buona parte dei compiti più semplici potrebbe essere risolta autonomamente, ma i compiti più difficili a lungo termine sono ancora al di là della portata dei sistemi attuali.

English

We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

TheAgentCompany: Valutazione delle Prestazioni degli Agenti LLM su Compiti Concreti del Mondo Reale con Conseguenze

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Abstract

Summary

Support