ToolHop: un benchmark guidato da query per valutare i grandi modelli linguistici nell'uso di strumenti multi-hop
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
January 5, 2025
Autori: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI
Abstract
Una valutazione efficace dell'uso di strumenti multi-hop è fondamentale per analizzare la comprensione, il ragionamento e le capacità di chiamata di funzioni dei grandi modelli linguistici (LLM). Tuttavia, i progressi sono stati ostacolati dalla mancanza di set di dati di valutazione affidabili. Per affrontare questo problema, presentiamo ToolHop, un dataset composto da 995 query utente e 3.912 strumenti associati, appositamente progettato per una rigorosa valutazione dell'uso di strumenti multi-hop. ToolHop garantisce query diverse, interdipendenze significative, strumenti eseguibili localmente, feedback dettagliato e risposte verificabili attraverso un innovativo approccio di costruzione dei dati guidato dalle query che include la creazione di strumenti, il perfezionamento dei documenti e la generazione di codice. Valutiamo 14 LLMs attraverso cinque famiglie di modelli (ossia LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), rivelando significativi ostacoli nel gestire scenari di utilizzo di strumenti multi-hop. Il modello leader, GPT-4o, raggiunge un'accuratezza del 49,04%, sottolineando un ampio margine di miglioramento. Ulteriori analisi rivelano variazioni nelle strategie di utilizzo degli strumenti per varie famiglie, offrendo spunti concreti per guidare lo sviluppo di approcci più efficaci. Codice e dati sono disponibili su https://huggingface.co/bytedance-research/ToolHop.
English
Effective evaluation of multi-hop tool use is critical for analyzing the
understanding, reasoning, and function-calling capabilities of large language
models (LLMs). However, progress has been hindered by a lack of reliable
evaluation datasets. To address this, we present ToolHop, a dataset comprising
995 user queries and 3,912 associated tools, specifically designed for rigorous
evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful
interdependencies, locally executable tools, detailed feedback, and verifiable
answers through a novel query-driven data construction approach that includes
tool creation, document refinement, and code generation. We evaluate 14 LLMs
across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and
GPT), uncovering significant challenges in handling multi-hop tool-use
scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%,
underscoring substantial room for improvement. Further analysis reveals
variations in tool-use strategies for various families, offering actionable
insights to guide the development of more effective approaches. Code and data
can be found in https://huggingface.co/bytedance-research/ToolHop.Summary
AI-Generated Summary