Übersicht zur Bewertung von LLM-basierten Agenten
Survey on Evaluation of LLM-based Agents
March 20, 2025
Autoren: Asaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer
cs.AI
Zusammenfassung
Das Aufkommen von LLM-basierten Agenten markiert einen Paradigmenwechsel in der KI, der autonomen Systemen ermöglicht, zu planen, zu schlussfolgern, Werkzeuge zu nutzen und Erinnerungen zu bewahren, während sie mit dynamischen Umgebungen interagieren. Diese Arbeit bietet die erste umfassende Übersicht über Evaluierungsmethoden für diese zunehmend leistungsfähigen Agenten. Wir analysieren systematisch Evaluierungsbenchmarks und -rahmenwerke in vier kritischen Dimensionen: (1) grundlegende Fähigkeiten von Agenten, einschließlich Planung, Werkzeugnutzung, Selbstreflexion und Gedächtnis; (2) anwendungsspezifische Benchmarks für Web-, Softwareentwicklungs-, wissenschaftliche und konversationelle Agenten; (3) Benchmarks für Generalisten-Agenten; und (4) Rahmenwerke zur Evaluierung von Agenten. Unsere Analyse zeigt aufkommende Trends auf, darunter eine Hinwendung zu realistischeren, herausfordernden Evaluierungen mit kontinuierlich aktualisierten Benchmarks. Wir identifizieren auch kritische Lücken, die zukünftige Forschung angehen muss – insbesondere bei der Bewertung von Kosteneffizienz, Sicherheit und Robustheit sowie bei der Entwicklung feingranularer und skalierbarer Evaluierungsmethoden. Diese Übersicht kartiert die sich schnell entwickelnde Landschaft der Agenten-Evaluierung, zeigt die aufkommenden Trends in diesem Bereich auf, identifiziert aktuelle Grenzen und schlägt Richtungen für zukünftige Forschung vor.
English
The emergence of LLM-based agents represents a paradigm shift in AI, enabling
autonomous systems to plan, reason, use tools, and maintain memory while
interacting with dynamic environments. This paper provides the first
comprehensive survey of evaluation methodologies for these increasingly capable
agents. We systematically analyze evaluation benchmarks and frameworks across
four critical dimensions: (1) fundamental agent capabilities, including
planning, tool use, self-reflection, and memory; (2) application-specific
benchmarks for web, software engineering, scientific, and conversational
agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating
agents. Our analysis reveals emerging trends, including a shift toward more
realistic, challenging evaluations with continuously updated benchmarks. We
also identify critical gaps that future research must address-particularly in
assessing cost-efficiency, safety, and robustness, and in developing
fine-grained, and scalable evaluation methods. This survey maps the rapidly
evolving landscape of agent evaluation, reveals the emerging trends in the
field, identifies current limitations, and proposes directions for future
research.Summary
AI-Generated Summary