대규모 행동 모델: 시작부터 실행까지
Large Action Models: From Inception to Implementation
December 13, 2024
저자: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
초록
AI가 계속 발전함에 따라, 언어 기반 지원을 넘어 실제 세계에서 작업을 수행할 수 있는 지능형 에이전트로 나아가는 시스템에 대한 수요가 커지고 있습니다. 이러한 진화는 텍스트 응답 생성에 뛰어난 전통적인 대형 언어 모델 (LLM)에서 실시간 환경 내에서 작업 생성 및 실행을 위해 설계된 대형 작업 모델 (LAM)로의 전환을 요구합니다. 에이전트 시스템에 의해 가능케 된 LAM은 AI를 수동적인 언어 이해에서 능동적인 작업 완료로 변화시키는 잠재력을 가지며, 인공 일반 지능으로의 진전을 향한 중요한 이정표를 세우고 있습니다.
본 논문에서는 LAM 개발을 위한 포괄적인 프레임워크를 제시하며, 그들의 창조부터 배포에 이르기까지의 체계적인 접근 방식을 제공합니다. 우리는 LAM의 개요부터 시작하여 그들의 독특한 특성을 강조하고 LLM과의 차이점을 명확히 합니다. Windows OS 기반 에이전트를 사례 연구로 활용하여, 데이터 수집, 모델 훈련, 환경 통합, 기반 형성 및 평가와 같은 LAM 개발의 주요 단계에 대한 상세한 단계별 안내를 제공합니다. 이 일반화된 워크플로우는 다양한 응용 분야에서 기능적인 LAM을 만들기 위한 청사진으로 활용될 수 있습니다. 우리는 LAM의 현재 제한 사항을 확인하고 미래 연구 및 산업 배치 방향을 논의하며, 실제 세계 응용 프로그램에서 LAM의 전체 잠재력을 실현하기 위한 앞으로의 도전과 기회를 강조합니다.
본 논문에서 사용된 데이터 수집 프로세스의 코드는 다음 링크에서 공개적으로 이용 가능하며: https://github.com/microsoft/UFO/tree/main/dataflow, 그리고 포괄적인 문서는 다음 링크에서 찾아볼 수 있습니다: https://microsoft.github.io/UFO/dataflow/overview/.
English
As AI continues to advance, there is a growing demand for systems that go
beyond language-based assistance and move toward intelligent agents capable of
performing real-world actions. This evolution requires the transition from
traditional Large Language Models (LLMs), which excel at generating textual
responses, to Large Action Models (LAMs), designed for action generation and
execution within dynamic environments. Enabled by agent systems, LAMs hold the
potential to transform AI from passive language understanding to active task
completion, marking a significant milestone in the progression toward
artificial general intelligence.
In this paper, we present a comprehensive framework for developing LAMs,
offering a systematic approach to their creation, from inception to deployment.
We begin with an overview of LAMs, highlighting their unique characteristics
and delineating their differences from LLMs. Using a Windows OS-based agent as
a case study, we provide a detailed, step-by-step guide on the key stages of
LAM development, including data collection, model training, environment
integration, grounding, and evaluation. This generalizable workflow can serve
as a blueprint for creating functional LAMs in various application domains. We
conclude by identifying the current limitations of LAMs and discussing
directions for future research and industrial deployment, emphasizing the
challenges and opportunities that lie ahead in realizing the full potential of
LAMs in real-world applications.
The code for the data collection process utilized in this paper is publicly
available at: https://github.com/microsoft/UFO/tree/main/dataflow, and
comprehensive documentation can be found at
https://microsoft.github.io/UFO/dataflow/overview/.