NesTools: 대형 언어 모델의 중첩 도구 학습 능력을 평가하기 위한 데이터셋
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
October 15, 2024
저자: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI
초록
대형 언어 모델(LLMs)은 도구 학습과 결합하여 현실 세계 응용 프로그램에서 인상적인 결과를 얻었습니다. 도구 학습 중에 LLMs는 중첩된 순서로 여러 도구를 호출할 수 있으며, 후자의 도구 호출은 전자의 응답을 입력 매개변수로 사용할 수 있습니다. 그러나 현재 중첩된 도구 학습 능력에 대한 연구는 아직 충분히 탐구되지 않았습니다. 왜냐하면 기존의 벤치마크에는 관련 데이터 인스턴스가 부족하기 때문입니다. 이 문제를 해결하기 위해 우리는 현재의 포괄적인 중첩된 도구 학습 평가의 공백을 메우기 위해 NesTools를 소개합니다. NesTools는 다양한 중첩 구조를 갖는 대규모 중첩 도구 호출을 구성하기 위한 새로운 자동 데이터 생성 방법으로 구성됩니다. 수동 검토와 정제를 통해 데이터셋은 고품질이며 실제 시나리오와 밀접하게 일치합니다. 따라서 NesTools는 LLMs의 중첩된 도구 학습 능력을 평가하기 위한 새로운 벤치마크로 기능할 수 있습니다. 우리는 22개의 LLM에 대해 광범위한 실험을 수행하고 NesTools와 함께 심층 분석을 제공하며, 이를 통해 현재 LLMs가 여전히 복잡한 중첩된 도구 학습 과제로부터 고통받고 있음을 보여줍니다.
English
Large language models (LLMs) combined with tool learning have gained
impressive results in real-world applications. During tool learning, LLMs may
call multiple tools in nested orders, where the latter tool call may take the
former response as its input parameters. However, current research on the
nested tool learning capabilities is still under-explored, since the existing
benchmarks lack of relevant data instances. To address this problem, we
introduce NesTools to bridge the current gap in comprehensive nested tool
learning evaluations. NesTools comprises a novel automatic data generation
method to construct large-scale nested tool calls with different nesting
structures. With manual review and refinement, the dataset is in high quality
and closely aligned with real-world scenarios. Therefore, NesTools can serve as
a new benchmark to evaluate the nested tool learning abilities of LLMs. We
conduct extensive experiments on 22 LLMs, and provide in-depth analyses with
NesTools, which shows that current LLMs still suffer from the complex nested
tool learning task.Summary
AI-Generated Summary