크라우드 비교 추론: LLM-as-a-Judge를 위한 포괄적 평가의 활성화
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge
February 18, 2025
저자: Qiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma
cs.AI
초록
CoT(Chain-of-Thought) 판단을 생성하는 LLM-as-a-Judge는 널리 채택된 자동 평가 방법으로 자리 잡았습니다. 그러나 CoT 추론이 포괄적이고 심층적인 세부 사항을 포착하지 못해 종종 불완전한 결과를 초래함으로써 그 신뢰성이 훼손되고 있습니다. 기존 방법들은 주로 다수결 투표나 기준 확장에 의존하는데, 이는 CoT의 한계를 해결하기에는 부족합니다. 우리는 Crowd-based Comparative Evaluation을 제안합니다. 이 방법은 추가적인 크라우드 응답을 도입하여 후보 응답과 비교함으로써, 후보 응답 내에 숨겨진 더 깊고 포괄적인 세부 사항을 드러냅니다. 이 과정은 LLM-as-a-Judge가 더 상세한 CoT 판단을 제공하도록 효과적으로 유도합니다. 광범위한 실험을 통해 우리의 접근 방식이 평가 신뢰성을 향상시키며, 5개 벤치마크에서 평균 6.7%의 정확도 향상을 달성함을 입증했습니다. 더욱이, 우리의 방법은 판단 증류를 용이하게 하는 더 높은 품질의 CoT를 생성하고, 지도 미세 조정(SFT)을 위한 거부 샘플링(크라우드 거부 샘플링이라 함)에서 우수한 성능을 보여 더 효율적인 SFT를 가능하게 합니다. 우리의 분석 결과, 우리가 생성한 CoT가 더 포괄적이고 높은 품질을 가지며, 추론 규모가 커질수록 평가 정확도가 향상됨이 확인되었습니다.
English
LLM-as-a-Judge, which generates chain-of-thought (CoT) judgments, has become
a widely adopted auto-evaluation method. However, its reliability is
compromised by the CoT reasoning's inability to capture comprehensive and
deeper details, often leading to incomplete outcomes. Existing methods mainly
rely on majority voting or criteria expansion, which is insufficient to address
the limitation in CoT. We propose Crowd-based Comparative Evaluation, which
introduces additional crowd responses to compare with the candidate responses,
thereby exposing deeper and more comprehensive details within the candidate
responses. This process effectively guides LLM-as-a-Judge to provide a more
detailed CoT judgment. Extensive experiments demonstrate that our approach
enhances evaluation reliability, achieving an average accuracy gain of 6.7%
across five benchmarks. Moreover, our method produces higher-quality CoTs that
facilitate judge distillation and exhibit superior performance in rejection
sampling for supervised fine-tuning (SFT), referred to as crowd rejection
sampling, thereby enabling more efficient SFT. Our analysis confirms that CoTs
generated by ours are more comprehensive and of higher quality, and evaluation
accuracy improves as inference scales.Summary
AI-Generated Summary