NesTools: Een dataset voor het evalueren van de leervermogens van grote taalmodellen op het gebied van geneste gereedschappen.
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
October 15, 2024
Auteurs: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI
Samenvatting
Grote taalmodellen (LLM's) gecombineerd met gereedschapsleren hebben indrukwekkende resultaten behaald in praktische toepassingen. Tijdens gereedschapsleren kunnen LLM's meerdere gereedschappen in geneste volgordes aanroepen, waarbij het latere gereedschap de reactie van het voorgaande als invoerparameters kan gebruiken. Echter, het huidige onderzoek naar de mogelijkheden van genest gereedschapsleren is nog onderbelicht, aangezien de bestaande benchmarks ontbreken aan relevante gegevensvoorbeelden. Om dit probleem aan te pakken, introduceren we NesTools om de huidige kloof in uitgebreide evaluaties van genest gereedschapsleren te overbruggen. NesTools omvat een nieuwe automatische gegevensgeneratiemethode om geneste gereedschapsaanroepen op grote schaal te construeren met verschillende neststructuren. Met handmatige beoordeling en verfijning is de dataset van hoge kwaliteit en nauw afgestemd op realistische scenario's. Daarom kan NesTools dienen als een nieuwe benchmark om de mogelijkheden van LLM's voor genest gereedschapsleren te evalueren. We voeren uitgebreide experimenten uit op 22 LLM's en bieden diepgaande analyses met NesTools, die aantonen dat huidige LLM's nog steeds moeite hebben met de complexe taak van genest gereedschapsleren.
English
Large language models (LLMs) combined with tool learning have gained
impressive results in real-world applications. During tool learning, LLMs may
call multiple tools in nested orders, where the latter tool call may take the
former response as its input parameters. However, current research on the
nested tool learning capabilities is still under-explored, since the existing
benchmarks lack of relevant data instances. To address this problem, we
introduce NesTools to bridge the current gap in comprehensive nested tool
learning evaluations. NesTools comprises a novel automatic data generation
method to construct large-scale nested tool calls with different nesting
structures. With manual review and refinement, the dataset is in high quality
and closely aligned with real-world scenarios. Therefore, NesTools can serve as
a new benchmark to evaluate the nested tool learning abilities of LLMs. We
conduct extensive experiments on 22 LLMs, and provide in-depth analyses with
NesTools, which shows that current LLMs still suffer from the complex nested
tool learning task.Summary
AI-Generated Summary