ToolHop: un benchmark guidato da query per valutare i grandi modelli linguistici nell'uso di strumenti multi-hop

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

January 5, 2025
Autori: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI

Abstract

Una valutazione efficace dell'uso di strumenti multi-hop è fondamentale per analizzare la comprensione, il ragionamento e le capacità di chiamata di funzioni dei grandi modelli linguistici (LLM). Tuttavia, i progressi sono stati ostacolati dalla mancanza di set di dati di valutazione affidabili. Per affrontare questo problema, presentiamo ToolHop, un dataset composto da 995 query utente e 3.912 strumenti associati, appositamente progettato per una rigorosa valutazione dell'uso di strumenti multi-hop. ToolHop garantisce query diverse, interdipendenze significative, strumenti eseguibili localmente, feedback dettagliato e risposte verificabili attraverso un innovativo approccio di costruzione dei dati guidato dalle query che include la creazione di strumenti, il perfezionamento dei documenti e la generazione di codice. Valutiamo 14 LLMs attraverso cinque famiglie di modelli (ossia LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), rivelando significativi ostacoli nel gestire scenari di utilizzo di strumenti multi-hop. Il modello leader, GPT-4o, raggiunge un'accuratezza del 49,04%, sottolineando un ampio margine di miglioramento. Ulteriori analisi rivelano variazioni nelle strategie di utilizzo degli strumenti per varie famiglie, offrendo spunti concreti per guidare lo sviluppo di approcci più efficaci. Codice e dati sono disponibili su https://huggingface.co/bytedance-research/ToolHop.
English
Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/bytedance-research/ToolHop.

Summary

AI-Generated Summary

PDF103January 7, 2025