NesTools: Een dataset voor het evalueren van de leervermogens van grote taalmodellen op het gebied van geneste gereedschappen.

Samenvatting

Grote taalmodellen (LLM's) gecombineerd met gereedschapsleren hebben indrukwekkende resultaten behaald in praktische toepassingen. Tijdens gereedschapsleren kunnen LLM's meerdere gereedschappen in geneste volgordes aanroepen, waarbij het latere gereedschap de reactie van het voorgaande als invoerparameters kan gebruiken. Echter, het huidige onderzoek naar de mogelijkheden van genest gereedschapsleren is nog onderbelicht, aangezien de bestaande benchmarks ontbreken aan relevante gegevensvoorbeelden. Om dit probleem aan te pakken, introduceren we NesTools om de huidige kloof in uitgebreide evaluaties van genest gereedschapsleren te overbruggen. NesTools omvat een nieuwe automatische gegevensgeneratiemethode om geneste gereedschapsaanroepen op grote schaal te construeren met verschillende neststructuren. Met handmatige beoordeling en verfijning is de dataset van hoge kwaliteit en nauw afgestemd op realistische scenario's. Daarom kan NesTools dienen als een nieuwe benchmark om de mogelijkheden van LLM's voor genest gereedschapsleren te evalueren. We voeren uitgebreide experimenten uit op 22 LLM's en bieden diepgaande analyses met NesTools, die aantonen dat huidige LLM's nog steeds moeite hebben met de complexe taak van genest gereedschapsleren.

English

Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

NesTools: Een dataset voor het evalueren van de leervermogens van grote taalmodellen op het gebied van geneste gereedschappen.

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

Samenvatting

Support