단일 모델이 다중 턴 대화와 도구 사용을 모두 마스터할 수 있을까? CALM: 통합된 대화형 에이전트 언어 모델
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
저자: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
초록
API 호출 기능을 갖춘 대형 언어 모델(LLM)은 효과적인 언어 에이전트(LA) 구축을 가능하게 하면서도 기존의 작업 지향 대화(TOD) 패러다임을 혁신적으로 변화시켰습니다. 그러나 현재의 접근 방식은 중요한 딜레마에 직면해 있습니다: TOD 시스템은 종종 제한된 대상 API 세트에 대해 훈련되어 새로운 서비스와 인터페이스할 때 품질을 유지하기 위해 새로운 데이터가 필요하며, LA는 다중 턴 대화에서 사용자 의도를 유지하도록 훈련되지 않았습니다. 강력한 다중 턼 관리와 고급 기능 호출 모두 효과적인 대화 에이전트에 필수적이기 때문에, 우리는 이러한 능력을 세 가지 인기 벤치마크인 MultiWOZ 2.4(TOD), BFCL V3(LA), API-Bank(LA)에서 평가하였으며, 분석 결과 특화된 접근 방식이 한 영역에서는 뛰어나지만 다른 영역에서는 성능이 떨어지는 것을 확인했습니다. 이러한 격차를 해소하기 위해, 우리는 대화 및 에이전트 기능을 통합한 통합 접근 방식인 CALM(Conversational Agentic Language Model)을 소개합니다. 우리는 다중 턼 ReAct 추론과 복잡한 API 사용을 교차하는 신중하게 구성된 다중 작업 데이터셋인 CALM-IT를 생성했습니다. CALM-IT를 사용하여 CALM 8B, CALM 70B, CALM 405B 세 가지 모델을 훈련시켰으며, 이들은 GPT-4o를 포함한 최고의 도메인 특화 모델을 모든 세 벤치마크에서 능가하는 성능을 보였습니다.
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary