MTU-Bench: Een benchmark voor het gebruik van tools op meerdere granulariteitsniveaus voor grote taalmodellen
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models
October 15, 2024
Auteurs: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben enorme verbeteringen laten zien in redeneer- en besluitvormingsvaardigheden en kunnen natuurlijke gesprekken voeren met gebruikers. Onlangs zijn er veel benchmark datasets voor gereedschapsgebruik voorgesteld. Echter, bestaande datasets hebben de volgende beperkingen: (1). Onvoldoende evaluatiescenario's (bijv. dekken slechts beperkte gereedschapsgebruiksscènes). (2). Hoge evaluatiekosten (bijv. GPT API-kosten). Om deze beperkingen aan te pakken, stellen we in dit werk een multi-granulariteitsgereedschapsgebruik benchmark voor voor grote taalmodellen genaamd MTU-Bench voor. Voor de eigenschap "multi-granulariteit" dekt onze MTU-Bench vijf gereedschapsgebruiksscènes (d.w.z. enkele beurt en enkel gereedschap, enkele beurt en meerdere gereedschappen, meerdere beurten en enkel gereedschap, meerdere beurten en meerdere gereedschappen, en taken buiten de distributie). Bovendien zijn alle evaluatiemetrics van onze MTU-Bench gebaseerd op de voorspellingsresultaten en de grondwaarheid zonder gebruik te maken van GPT of menselijke evaluatiemetrics. Bovendien wordt onze MTU-Bench verzameld door bestaande hoogwaardige datasets te transformeren om realistische gereedschapsgebruiksscenario's te simuleren, en we stellen ook een instructiedataset voor genaamd MTU-Instructiedata om de gereedschapsgebruiksvaardigheden van bestaande LLM's te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze MTU-Bench aan. Code en data worden vrijgegeven op https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning
and decision-making skills and can hold natural conversations with users.
Recently, many tool-use benchmark datasets have been proposed. However,
existing datasets have the following limitations: (1). Insufficient evaluation
scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation
costs (e.g., GPT API costs). To address these limitations, in this work, we
propose a multi-granularity tool-use benchmark for large language models called
MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool
usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool,
multiple-turn and single-tool, multiple-turn and multiple-tool, and
out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench
are based on the prediction results and the ground truth without using any GPT
or human evaluation metrics. Moreover, our MTU-Bench is collected by
transforming existing high-quality datasets to simulate real-world tool usage
scenarios, and we also propose an instruction dataset called MTU-Instruct data
to enhance the tool-use abilities of existing LLMs. Comprehensive experimental
results demonstrate the effectiveness of our MTU-Bench. Code and data will be
released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.Summary
AI-Generated Summary