Модели извлечения не владеют инструментами: тестирование извлечения инструментов для крупных языковых моделей
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Авторы: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Аннотация
Обучение работе с инструментами направлено на расширение возможностей больших языковых моделей (LLM) за счет использования разнообразных инструментов, позволяя им выступать в роли агентов для решения практических задач. Из-за ограниченной длины контекста LLM, использующих инструменты, применение моделей информационного поиска (IR) для выбора полезных инструментов из больших наборов является критически важным начальным шагом. Однако производительность моделей IR в задачах поиска инструментов остается недостаточно изученной и неясной. Большинство бенчмарков по использованию инструментов упрощают этот этап, вручную предварительно аннотируя небольшой набор релевантных инструментов для каждой задачи, что далеко от реальных сценариев. В данной статье мы предлагаем ToolRet — гетерогенный бенчмарк для поиска инструментов, включающий 7,6 тыс. разнообразных задач поиска и корпус из 43 тыс. инструментов, собранных из существующих наборов данных. Мы тестируем шесть типов моделей на ToolRet. Удивительно, но даже модели, демонстрирующие высокую производительность в традиционных бенчмарках IR, показывают низкие результаты на ToolRet. Такое низкое качество поиска снижает успешность выполнения задач LLM, использующих инструменты. В качестве дальнейшего шага мы представляем крупномасштабный обучающий набор данных с более чем 200 тыс. примеров, который существенно оптимизирует способность моделей IR к поиску инструментов.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary