MTU-Bench: Een benchmark voor het gebruik van tools op meerdere granulariteitsniveaus voor grote taalmodellen

Samenvatting

Grote Taalmodellen (LLM's) hebben enorme verbeteringen laten zien in redeneer- en besluitvormingsvaardigheden en kunnen natuurlijke gesprekken voeren met gebruikers. Onlangs zijn er veel benchmark datasets voor gereedschapsgebruik voorgesteld. Echter, bestaande datasets hebben de volgende beperkingen: (1). Onvoldoende evaluatiescenario's (bijv. dekken slechts beperkte gereedschapsgebruiksscènes). (2). Hoge evaluatiekosten (bijv. GPT API-kosten). Om deze beperkingen aan te pakken, stellen we in dit werk een multi-granulariteitsgereedschapsgebruik benchmark voor voor grote taalmodellen genaamd MTU-Bench voor. Voor de eigenschap "multi-granulariteit" dekt onze MTU-Bench vijf gereedschapsgebruiksscènes (d.w.z. enkele beurt en enkel gereedschap, enkele beurt en meerdere gereedschappen, meerdere beurten en enkel gereedschap, meerdere beurten en meerdere gereedschappen, en taken buiten de distributie). Bovendien zijn alle evaluatiemetrics van onze MTU-Bench gebaseerd op de voorspellingsresultaten en de grondwaarheid zonder gebruik te maken van GPT of menselijke evaluatiemetrics. Bovendien wordt onze MTU-Bench verzameld door bestaande hoogwaardige datasets te transformeren om realistische gereedschapsgebruiksscenario's te simuleren, en we stellen ook een instructiedataset voor genaamd MTU-Instructiedata om de gereedschapsgebruiksvaardigheden van bestaande LLM's te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze MTU-Bench aan. Code en data worden vrijgegeven op https://github.com/MTU-Bench-Team/MTU-Bench.git.

English

Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.

MTU-Bench: Een benchmark voor het gebruik van tools op meerdere granulariteitsniveaus voor grote taalmodellen

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

Samenvatting

Summary

Support