ChatPaper.aiChatPaper

헤파이스토스: 지속적인 사전 훈련을 통해 대형 언어 모델의 기본 에이전트 능력 향상

Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

February 10, 2025
저자: Yuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang
cs.AI

초록

에이전트 중심 사전 훈련 데이터의 부족으로, LLM 기반 자율 에이전트는 일반적으로 새로운 능력을 도입하면서 강력한 일반화를 유지하는 것이 어려운 복잡한 프롬프팅이나 광범위한 세밀 조정에 의존합니다. 우리는 API 함수 호출, 본질적 추론 및 계획, 환경적 피드백에 적응하는 데 필요한 기본 기능을 강화하기 위해 설계된 첫 번째 대규모 사전 훈련 말뭉치인 Hephaestus-Forge를 소개합니다. Hephaestus-Forge는 76,537개의 API를 포함한 103B 에이전트별 데이터로 구성되어 있으며, API 함수의 지식을 소개하는 도구 문서와 내재적 추론을 강화하기 위한 함수 호출 궤적을 모두 포함하고 있습니다. 효과적인 훈련 프로토콜을 탐구하기 위해 스케일링 법칙을 조사하여 데이터 혼합 비율의 최적 조합을 식별합니다. Hephaestus-Forge에서 계속된 사전 훈련을 통해 Hephaestus는 세 가지 에이전트 벤치마크에서 소규모에서 중규모의 오픈 소스 LLM을 능가하며 상업용 LLM과 경쟁하여 우리의 사전 훈련 말뭉치가 LLM의 기본적인 에이전트 능력을 향상시키고 새로운 작업이나 환경으로의 LLM의 일반화를 입증하는 효과를 보여줍니다.
English
Due to the scarcity of agent-oriented pre-training data, LLM-based autonomous agents typically rely on complex prompting or extensive fine-tuning, which often fails to introduce new capabilities while preserving strong generalizability. We introduce Hephaestus-Forge, the first large-scale pre-training corpus designed to enhance the fundamental capabilities of LLM agents in API function calling, intrinsic reasoning and planning, and adapting to environmental feedback. Hephaestus-Forge comprises 103B agent-specific data encompassing 76,537 APIs, including both tool documentation to introduce knowledge of API functions and function calling trajectories to strengthen intrinsic reasoning. To explore effective training protocols, we investigate scaling laws to identify the optimal recipe in data mixing ratios. By continual pre-training on Hephaestus-Forge, Hephaestus outperforms small- to medium-scale open-source LLMs and rivals commercial LLMs on three agent benchmarks, demonstrating the effectiveness of our pre-training corpus in enhancing fundamental agentic capabilities and generalization of LLMs to new tasks or environments.

Summary

AI-Generated Summary

PDF172February 12, 2025