RealCritic: 언어 모델 평가의 효과성 중심 접근 방식으로 나아가기
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
저자: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
초록
크리티크는 대형 언어 모델(LLMs)의 성능을 향상시키는 데 중요하며, 결함을 식별하고 개선을 제안함으로써 자가 개선과 다른 이들에게 건설적인 피드백을 가능하게 합니다. 그러나 LLMs의 크리티크 능력을 평가하는 것은 열린 문제의 본질 때문에 상당한 어려움을 겪습니다. 본 연구에서는 LLMs의 크리티크 능력을 평가하기 위해 설계된 새로운 벤치마크를 소개합니다. 기존의 벤치마크와는 달리 일반적으로 개방 루프 방식으로 작동하는 접근과는 달리, 우리의 방법론은 크리티크에서 생성된 수정의 품질을 평가하는 폐쇄 루프 방법론을 사용합니다. 더불어, 이 벤치마크는 자가 크리티크, 교차 크리티크, 반복적 크리티크와 같은 기능을 통합하여 고급 추론 모델의 능력을 전통적인 모델과 구별하는 데 중요합니다. 우리는 이 벤치마크를 8가지 어려운 추론 작업을 사용하여 구현했습니다. 몇 가지 흥미로운 결과를 얻었습니다. 첫째, 직접적인 사고 체인 생성에서 유사한 성능을 보이지만, 전통적 LLMs는 모든 크리티크 시나리오에서 고급 추론 기반 모델 o1-mini에 크게 뒤처지는 것으로 나타났습니다. 둘째, 자가 크리티크와 반복적 크리티크 설정에서 전통적 LLMs는 기본 능력에 비해 심지어 성능이 떨어질 수 있습니다. 이 벤치마크가 향후 발전을 이끌어낼 소중한 자원으로 기대합니다. 코드와 데이터는 https://github.com/tangzhy/RealCritic에서 사용할 수 있습니다.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary