ComplexFuncBench: Het verkennen van multi-step en beperkte functieaanroepen onder een scenario met een lange context.

Samenvatting

Het verbeteren van grote taalmodellen (LLM's) met real-time API's kan helpen bij het genereren van nauwkeurigere en actuelere antwoorden. Het evalueren van de functie-oproepmogelijkheden van LLM's in real-world scenario's blijft echter onderbelicht vanwege de complexiteit van gegevensverzameling en evaluatie. In dit werk introduceren we ComplexFuncBench, een benchmark voor complexe functie-oproepen in vijf real-world scenario's. In vergelijking met bestaande benchmarks omvat ComplexFuncBench multi-step en beperkte functie-oproepen, die lang-parameter invulling, redenering over parameterwaarden en een context van 128k lang vereisen. Daarnaast stellen we een automatisch framework voor, ComplexEval, voor het kwantitatief evalueren van complexe functie-oproep taken. Door uitgebreide experimenten tonen we de tekortkomingen van state-of-the-art LLM's in functie-oproepen aan en suggereren we toekomstige richtingen voor het optimaliseren van deze mogelijkheden. De gegevens en code zijn beschikbaar op https://github.com/THUDM/ComplexFuncBench.

English

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

ComplexFuncBench: Het verkennen van multi-step en beperkte functieaanroepen onder een scenario met een lange context.

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Samenvatting

Summary

Support