ToolHop: Um Benchmark Orientado por Consulta para Avaliar Modelos de Linguagem Grandes no Uso de Ferramentas Multi-Hop

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

January 5, 2025
Autores: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI

Resumo

A avaliação eficaz do uso de ferramentas de múltiplos saltos é fundamental para analisar as capacidades de compreensão, raciocínio e chamada de funções de grandes modelos de linguagem (LLMs). No entanto, o progresso tem sido prejudicado pela falta de conjuntos de dados de avaliação confiáveis. Para abordar essa questão, apresentamos o ToolHop, um conjunto de dados composto por 995 consultas de usuário e 3.912 ferramentas associadas, especificamente projetado para uma avaliação rigorosa do uso de ferramentas de múltiplos saltos. O ToolHop garante consultas diversas, interdependências significativas, ferramentas localmente executáveis, feedback detalhado e respostas verificáveis por meio de uma abordagem de construção de dados orientada por consultas que inclui criação de ferramentas, refinamento de documentos e geração de código. Avaliamos 14 LLMs em cinco famílias de modelos (ou seja, LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), revelando desafios significativos no manuseio de cenários de uso de ferramentas de múltiplos saltos. O modelo líder, GPT-4o, alcança uma precisão de 49,04%, destacando um espaço substancial para melhoria. Uma análise adicional revela variações nas estratégias de uso de ferramentas para diferentes famílias, oferecendo insights acionáveis para orientar o desenvolvimento de abordagens mais eficazes. O código e os dados podem ser encontrados em https://huggingface.co/bytedance-research/ToolHop.
English
Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/bytedance-research/ToolHop.

Summary

AI-Generated Summary

PDF103January 7, 2025