Modelli di Azione Estesi: Dall'Inizio all'Implementazione
Large Action Models: From Inception to Implementation
December 13, 2024
Autori: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Abstract
Con il continuo avanzamento dell'Intelligenza Artificiale, c'è una crescente domanda di sistemi che vanno oltre l'assistenza basata sul linguaggio e si spostano verso agenti intelligenti capaci di compiere azioni nel mondo reale. Questa evoluzione richiede il passaggio dai tradizionali Grandi Modelli Linguistici (LLM), che eccellono nella generazione di risposte testuali, ai Grandi Modelli d'Azione (LAM), progettati per la generazione e l'esecuzione di azioni all'interno di ambienti dinamici. Abilitati dai sistemi di agenti, i LAM hanno il potenziale di trasformare l'IA da una mera comprensione del linguaggio a un completamento attivo di compiti, segnando una significativa pietra miliare nel cammino verso l'intelligenza artificiale generale.
In questo articolo, presentiamo un quadro completo per lo sviluppo dei LAM, offrendo un approccio sistematico alla loro creazione, dall'ideazione alla messa in funzione. Iniziamo con una panoramica dei LAM, evidenziandone le caratteristiche uniche e delineandone le differenze rispetto ai LLM. Utilizzando come caso di studio un agente basato su sistema operativo Windows, forniamo una guida dettagliata, passo dopo passo, sulle fasi chiave dello sviluppo dei LAM, compresa la raccolta dati, l'addestramento del modello, l'integrazione nell'ambiente, la messa a terra e la valutazione. Questo flusso di lavoro generalizzabile può fungere da modello per la creazione di LAM funzionali in vari ambiti applicativi. Concludiamo identificando le attuali limitazioni dei LAM e discutendo le direzioni per la ricerca futura e la messa in opera industriale, sottolineando le sfide e le opportunità che si presentano nel realizzare appieno il potenziale dei LAM nelle applicazioni reali.
Il codice per il processo di raccolta dati utilizzato in questo articolo è pubblicamente disponibile su: https://github.com/microsoft/UFO/tree/main/dataflow, e la documentazione esaustiva è reperibile su https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.Summary
AI-Generated Summary