Modelli di Azione Estesi: Dall'Inizio all'Implementazione

Large Action Models: From Inception to Implementation

December 13, 2024
Autori: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Abstract

Con il continuo avanzamento dell'Intelligenza Artificiale, c'è una crescente domanda di sistemi che vanno oltre l'assistenza basata sul linguaggio e si spostano verso agenti intelligenti capaci di compiere azioni nel mondo reale. Questa evoluzione richiede il passaggio dai tradizionali Grandi Modelli Linguistici (LLM), che eccellono nella generazione di risposte testuali, ai Grandi Modelli d'Azione (LAM), progettati per la generazione e l'esecuzione di azioni all'interno di ambienti dinamici. Abilitati dai sistemi di agenti, i LAM hanno il potenziale di trasformare l'IA da una mera comprensione del linguaggio a un completamento attivo di compiti, segnando una significativa pietra miliare nel cammino verso l'intelligenza artificiale generale. In questo articolo, presentiamo un quadro completo per lo sviluppo dei LAM, offrendo un approccio sistematico alla loro creazione, dall'ideazione alla messa in funzione. Iniziamo con una panoramica dei LAM, evidenziandone le caratteristiche uniche e delineandone le differenze rispetto ai LLM. Utilizzando come caso di studio un agente basato su sistema operativo Windows, forniamo una guida dettagliata, passo dopo passo, sulle fasi chiave dello sviluppo dei LAM, compresa la raccolta dati, l'addestramento del modello, l'integrazione nell'ambiente, la messa a terra e la valutazione. Questo flusso di lavoro generalizzabile può fungere da modello per la creazione di LAM funzionali in vari ambiti applicativi. Concludiamo identificando le attuali limitazioni dei LAM e discutendo le direzioni per la ricerca futura e la messa in opera industriale, sottolineando le sfide e le opportunità che si presentano nel realizzare appieno il potenziale dei LAM nelle applicazioni reali. Il codice per il processo di raccolta dati utilizzato in questo articolo è pubblicamente disponibile su: https://github.com/microsoft/UFO/tree/main/dataflow, e la documentazione esaustiva è reperibile su https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.

Summary

AI-Generated Summary

PDF325December 16, 2024