ChatPaper.aiChatPaper

Übersicht zur Bewertung von LLM-basierten Agenten

Survey on Evaluation of LLM-based Agents

March 20, 2025
Autoren: Asaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer
cs.AI

Zusammenfassung

Das Aufkommen von LLM-basierten Agenten markiert einen Paradigmenwechsel in der KI, der autonomen Systemen ermöglicht, zu planen, zu schlussfolgern, Werkzeuge zu nutzen und Erinnerungen zu bewahren, während sie mit dynamischen Umgebungen interagieren. Diese Arbeit bietet die erste umfassende Übersicht über Evaluierungsmethoden für diese zunehmend leistungsfähigen Agenten. Wir analysieren systematisch Evaluierungsbenchmarks und -rahmenwerke in vier kritischen Dimensionen: (1) grundlegende Fähigkeiten von Agenten, einschließlich Planung, Werkzeugnutzung, Selbstreflexion und Gedächtnis; (2) anwendungsspezifische Benchmarks für Web-, Softwareentwicklungs-, wissenschaftliche und konversationelle Agenten; (3) Benchmarks für Generalisten-Agenten; und (4) Rahmenwerke zur Evaluierung von Agenten. Unsere Analyse zeigt aufkommende Trends auf, darunter eine Hinwendung zu realistischeren, herausfordernden Evaluierungen mit kontinuierlich aktualisierten Benchmarks. Wir identifizieren auch kritische Lücken, die zukünftige Forschung angehen muss – insbesondere bei der Bewertung von Kosteneffizienz, Sicherheit und Robustheit sowie bei der Entwicklung feingranularer und skalierbarer Evaluierungsmethoden. Diese Übersicht kartiert die sich schnell entwickelnde Landschaft der Agenten-Evaluierung, zeigt die aufkommenden Trends in diesem Bereich auf, identifiziert aktuelle Grenzen und schlägt Richtungen für zukünftige Forschung vor.
English
The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

Summary

AI-Generated Summary

PDF842March 21, 2025