ToolHop: 다중-홉 도구 사용에서 대형 언어 모델을 평가하기 위한 쿼리 주도형 벤치마크
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
January 5, 2025
저자: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI
초록
다중 점프 도구 사용의 효과적인 평가는 대형 언어 모델 (LLM)의 이해, 추론 및 기능 호출 능력을 분석하는 데 중요합니다. 그러나 신뢰할 수 있는 평가 데이터셋의 부족으로 인해 진전이 더딘 상황입니다. 이를 해결하기 위해 우리는 ToolHop을 제시합니다. 이 데이터셋은 995개의 사용자 쿼리와 3,912개의 관련 도구로 구성되어 있으며, 다중 점프 도구 사용의 엄격한 평가를 위해 특별히 설계되었습니다. ToolHop은 새로운 쿼리 주도형 데이터 구축 방법을 통해 다양한 쿼리, 의미 있는 상호 의존성, 로컬에서 실행 가능한 도구, 자세한 피드백 및 검증 가능한 답변을 보장합니다. 우리는 LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 및 GPT와 같은 다섯 가지 모델 패밀리에서 14개의 LLM을 평가하여, 다중 점프 도구 사용 시나리오를 처리하는 데 중요한 도전에 대해 밝혀냅니다. 선도 모델인 GPT-4o는 49.04%의 정확도를 달성하여, 개선할 여지가 많다는 점을 강조합니다. 추가 분석에서는 다양한 패밀리에 대한 도구 사용 전략의 차이를 밝혀, 보다 효과적인 접근 방법 개발을 지원하는 실질적인 통찰을 제공합니다. 코드와 데이터는 https://huggingface.co/bytedance-research/ToolHop에서 찾을 수 있습니다.
English
Effective evaluation of multi-hop tool use is critical for analyzing the
understanding, reasoning, and function-calling capabilities of large language
models (LLMs). However, progress has been hindered by a lack of reliable
evaluation datasets. To address this, we present ToolHop, a dataset comprising
995 user queries and 3,912 associated tools, specifically designed for rigorous
evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful
interdependencies, locally executable tools, detailed feedback, and verifiable
answers through a novel query-driven data construction approach that includes
tool creation, document refinement, and code generation. We evaluate 14 LLMs
across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and
GPT), uncovering significant challenges in handling multi-hop tool-use
scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%,
underscoring substantial room for improvement. Further analysis reveals
variations in tool-use strategies for various families, offering actionable
insights to guide the development of more effective approaches. Code and data
can be found in https://huggingface.co/bytedance-research/ToolHop.Summary
AI-Generated Summary