Agent-als-Rechter: Beoordeel Agents met Agents
Agent-as-a-Judge: Evaluate Agents with Agents
October 14, 2024
Auteurs: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI
Samenvatting
Hedendaagse evaluatietechnieken zijn ontoereikend voor agentische systemen. Deze benaderingen richten zich ofwel uitsluitend op eindresultaten - waarbij de stapsgewijze aard van agentische systemen wordt genegeerd - of vereisen overmatige handmatige arbeid. Om dit aan te pakken, introduceren we het Agent-als-Rechter framework, waarbij agentische systemen worden gebruikt om andere agentische systemen te evalueren. Dit is een organische uitbreiding van het LLM-als-Rechter framework, waarbij agentische kenmerken worden opgenomen die tussentijdse feedback mogelijk maken voor het gehele taakoplossingsproces. We passen het Agent-als-Rechter framework toe op de taak van codegeneratie. Om problemen met bestaande benchmarks te overwinnen en een proof-of-concept testomgeving te bieden voor Agent-als-Rechter, presenteren we DevAI, een nieuwe benchmark van 55 realistische geautomatiseerde AI-ontwikkeltaken. Het bevat uitgebreide handmatige annotaties, zoals in totaal 365 hiërarchische gebruikersvereisten. We beoordelen drie van de populaire agentische systemen met behulp van het Agent-als-Rechter framework en vinden dat het aanzienlijk beter presteert dan het LLM-als-Rechter framework en net zo betrouwbaar is als onze menselijke evaluatie-baseline. Al met al zijn we van mening dat Agent-als-Rechter een concrete stap voorwaarts betekent voor moderne agentische systemen - door rijke en betrouwbare beloningssignalen te bieden die nodig zijn voor dynamische en schaalbare zelfverbetering.
English
Contemporary evaluation techniques are inadequate for agentic systems. These
approaches either focus exclusively on final outcomes -- ignoring the
step-by-step nature of agentic systems, or require excessive manual labour. To
address this, we introduce the Agent-as-a-Judge framework, wherein agentic
systems are used to evaluate agentic systems. This is an organic extension of
the LLM-as-a-Judge framework, incorporating agentic features that enable
intermediate feedback for the entire task-solving process. We apply the
Agent-as-a-Judge to the task of code generation. To overcome issues with
existing benchmarks and provide a proof-of-concept testbed for
Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated
AI development tasks. It includes rich manual annotations, like a total of 365
hierarchical user requirements. We benchmark three of the popular agentic
systems using Agent-as-a-Judge and find it dramatically outperforms
LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether,
we believe that Agent-as-a-Judge marks a concrete step forward for modern
agentic systems -- by providing rich and reliable reward signals necessary for
dynamic and scalable self-improvement.Summary
AI-Generated Summary