ComplexFuncBench: Erforschung von Mehrschritt- und eingeschränkten Funktionsaufrufen unter Langzeitkontext-Szenario
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Autoren: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Zusammenfassung
Die Verbesserung großer Sprachmodelle (LLMs) mit Echtzeit-APIs kann dazu beitragen, genauere und aktuellere Antworten zu generieren. Die Evaluierung der Funktionsaufruf-Fähigkeiten von LLMs in realen Szenarien bleibt jedoch aufgrund der Komplexität der Datensammlung und -bewertung weitgehend unerforscht. In dieser Arbeit stellen wir ComplexFuncBench vor, einen Benchmark für komplexe Funktionsaufrufe in fünf realen Szenarien. Im Vergleich zu bestehenden Benchmarks umfasst ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, die eine lange Parameterausfüllung, Parameterwertbegründung und einen 128k langen Kontext erfordern. Darüber hinaus schlagen wir ein automatisches Framework, ComplexEval, zur quantitativen Bewertung von komplexen Funktionsaufruf-Aufgaben vor. Durch umfassende Experimente zeigen wir die Defizite der modernsten LLMs bei Funktionsaufrufen auf und schlagen zukünftige Optimierungsrichtungen für diese Fähigkeiten vor. Die Daten und der Code sind unter https://github.com/THUDM/ComplexFuncBench verfügbar.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary