판사로서의 에이전트: 다른 에이전트들을 평가하다

Agent-as-a-Judge: Evaluate Agents with Agents

October 14, 2024
저자: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
cs.AI

초록

현대의 평가 기법은 상호작용 시스템에 부적합하다. 이러한 접근 방식은 종종 최종 결과에만 집중하여 상호작용 시스템의 단계별 특성을 무시하거나 과도한 수동 노동이 필요하다. 이에 대응하기 위해, 우리는 상호작용 시스템을 평가하기 위해 상호작용 시스템을 활용하는 '판사로서의 에이전트' 프레임워크를 소개한다. 이는 '판사로서의 LLM' 프레임워크의 유기적인 확장으로, 중간 피드백을 가능하게 하는 상호작용 특징을 통합하고 전체 작업 해결 프로세스에 대한 중간 피드백을 제공한다. 우리는 '판사로서의 에이전트'를 코드 생성 작업에 적용한다. 기존의 벤치마크 문제를 극복하고 '판사로서의 에이전트'를 위한 개념 증명 테스트베드를 제공하기 위해 55가지 현실적인 자동화된 AI 개발 작업의 새로운 벤치마크인 DevAI를 제시한다. 이는 총 365개의 계층적 사용자 요구 사항과 같은 풍부한 수동 주석을 포함한다. 우리는 '판사로서의 에이전트'를 사용하여 세 가지 인기 있는 상호작용 시스템을 벤치마킹하고, '판사로서의 LLM'을 능가하는 것으로 밝혀내며 우리의 인간 평가 기준과 신뢰성이 동등함을 확인한다. 모두를 종합하면, 우리는 '판사로서의 에이전트'가 현대 상호작용 시스템에 대한 구체적인 발전을 나타내며, 동적이고 확장 가능한 자가 개선을 위해 필요한 풍부하고 신뢰할 수 있는 보상 신호를 제공함으로써 중요한 한걸음을 나아간다고 믿는다.
English
Contemporary evaluation techniques are inadequate for agentic systems. These approaches either focus exclusively on final outcomes -- ignoring the step-by-step nature of agentic systems, or require excessive manual labour. To address this, we introduce the Agent-as-a-Judge framework, wherein agentic systems are used to evaluate agentic systems. This is an organic extension of the LLM-as-a-Judge framework, incorporating agentic features that enable intermediate feedback for the entire task-solving process. We apply the Agent-as-a-Judge to the task of code generation. To overcome issues with existing benchmarks and provide a proof-of-concept testbed for Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated AI development tasks. It includes rich manual annotations, like a total of 365 hierarchical user requirements. We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether, we believe that Agent-as-a-Judge marks a concrete step forward for modern agentic systems -- by providing rich and reliable reward signals necessary for dynamic and scalable self-improvement.

Summary

AI-Generated Summary

PDF102November 16, 2024