ComplexFuncBench: Het verkennen van multi-step en beperkte functieaanroepen onder een scenario met een lange context.
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Auteurs: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Samenvatting
Het verbeteren van grote taalmodellen (LLM's) met real-time API's kan helpen bij het genereren van nauwkeurigere en actuelere antwoorden. Het evalueren van de functie-oproepmogelijkheden van LLM's in real-world scenario's blijft echter onderbelicht vanwege de complexiteit van gegevensverzameling en evaluatie. In dit werk introduceren we ComplexFuncBench, een benchmark voor complexe functie-oproepen in vijf real-world scenario's. In vergelijking met bestaande benchmarks omvat ComplexFuncBench multi-step en beperkte functie-oproepen, die lang-parameter invulling, redenering over parameterwaarden en een context van 128k lang vereisen. Daarnaast stellen we een automatisch framework voor, ComplexEval, voor het kwantitatief evalueren van complexe functie-oproep taken. Door uitgebreide experimenten tonen we de tekortkomingen van state-of-the-art LLM's in functie-oproepen aan en suggereren we toekomstige richtingen voor het optimaliseren van deze mogelijkheden. De gegevens en code zijn beschikbaar op https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary