ComplexFuncBench: Erforschung von Mehrschritt- und eingeschränkten Funktionsaufrufen unter Langzeitkontext-Szenario

Zusammenfassung

Die Verbesserung großer Sprachmodelle (LLMs) mit Echtzeit-APIs kann dazu beitragen, genauere und aktuellere Antworten zu generieren. Die Evaluierung der Funktionsaufruf-Fähigkeiten von LLMs in realen Szenarien bleibt jedoch aufgrund der Komplexität der Datensammlung und -bewertung weitgehend unerforscht. In dieser Arbeit stellen wir ComplexFuncBench vor, einen Benchmark für komplexe Funktionsaufrufe in fünf realen Szenarien. Im Vergleich zu bestehenden Benchmarks umfasst ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, die eine lange Parameterausfüllung, Parameterwertbegründung und einen 128k langen Kontext erfordern. Darüber hinaus schlagen wir ein automatisches Framework, ComplexEval, zur quantitativen Bewertung von komplexen Funktionsaufruf-Aufgaben vor. Durch umfassende Experimente zeigen wir die Defizite der modernsten LLMs bei Funktionsaufrufen auf und schlagen zukünftige Optimierungsrichtungen für diese Fähigkeiten vor. Die Daten und der Code sind unter https://github.com/THUDM/ComplexFuncBench verfügbar.

English

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

ComplexFuncBench: Erforschung von Mehrschritt- und eingeschränkten Funktionsaufrufen unter Langzeitkontext-Szenario

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Zusammenfassung

Summary

Support

Support