ToolHop: Um Benchmark Orientado por Consulta para Avaliar Modelos de Linguagem Grandes no Uso de Ferramentas Multi-Hop
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
January 5, 2025
Autores: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI
Resumo
A avaliação eficaz do uso de ferramentas de múltiplos saltos é fundamental para analisar as capacidades de compreensão, raciocínio e chamada de funções de grandes modelos de linguagem (LLMs). No entanto, o progresso tem sido prejudicado pela falta de conjuntos de dados de avaliação confiáveis. Para abordar essa questão, apresentamos o ToolHop, um conjunto de dados composto por 995 consultas de usuário e 3.912 ferramentas associadas, especificamente projetado para uma avaliação rigorosa do uso de ferramentas de múltiplos saltos. O ToolHop garante consultas diversas, interdependências significativas, ferramentas localmente executáveis, feedback detalhado e respostas verificáveis por meio de uma abordagem de construção de dados orientada por consultas que inclui criação de ferramentas, refinamento de documentos e geração de código. Avaliamos 14 LLMs em cinco famílias de modelos (ou seja, LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), revelando desafios significativos no manuseio de cenários de uso de ferramentas de múltiplos saltos. O modelo líder, GPT-4o, alcança uma precisão de 49,04%, destacando um espaço substancial para melhoria. Uma análise adicional revela variações nas estratégias de uso de ferramentas para diferentes famílias, oferecendo insights acionáveis para orientar o desenvolvimento de abordagens mais eficazes. O código e os dados podem ser encontrados em https://huggingface.co/bytedance-research/ToolHop.
English
Effective evaluation of multi-hop tool use is critical for analyzing the
understanding, reasoning, and function-calling capabilities of large language
models (LLMs). However, progress has been hindered by a lack of reliable
evaluation datasets. To address this, we present ToolHop, a dataset comprising
995 user queries and 3,912 associated tools, specifically designed for rigorous
evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful
interdependencies, locally executable tools, detailed feedback, and verifiable
answers through a novel query-driven data construction approach that includes
tool creation, document refinement, and code generation. We evaluate 14 LLMs
across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and
GPT), uncovering significant challenges in handling multi-hop tool-use
scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%,
underscoring substantial room for improvement. Further analysis reveals
variations in tool-use strategies for various families, offering actionable
insights to guide the development of more effective approaches. Code and data
can be found in https://huggingface.co/bytedance-research/ToolHop.Summary
AI-Generated Summary