자가 진화하는 비평가를 통해 확장 가능한 감독 기능 활성화
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
저자: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
초록
놀랄 만한 성능을 보이고 있지만 대형 언어 모델(LLMs)의 개발은 확장 가능한 감독에 중대한 도전을 직면하고 있습니다: 인간 평가가 어려운 작업이나 LLMs가 인간을 능가하는 작업에 대한 효과적인 피드백을 제공하는 것입니다. 비판을 위해 LLMs를 사용하는 데 관심이 커지고 있지만, 현재의 접근 방식은 여전히 인간 주석이나 더 강력한 모델에 의존하고 있어 외부 감독 없이 비판 능력을 향상시키는 문제는 해결되지 않았습니다. 우리는 SCRIT(Self-evolving CRITic)라는 프레임워크를 소개합니다. 이 프레임워크는 비판 능력의 진정한 자가 진화를 가능하게 합니다. 기술적으로 SCRIT은 차별 기반의 자가 비평가를 사용하여 단계별 비평을 위한 참조 솔루션을 사용하여 생성된 합성 데이터로 훈련함으로써 자가 개선됩니다. 또한 비평 품질을 보정 결과를 통해 보장하는 자가 유효성 메커니즘을 사용합니다. 가장 강력한 LLM 중 하나인 Qwen2.5-72B-Instruct로 구현된 SCRIT은 비판-보정 및 오류 식별 벤치마크에서 최대 10.3%의 성능 향상을 달성합니다. 우리의 분석 결과 SCRIT의 성능이 데이터와 모델 크기에 비례하여 양호하며, 대안적 접근 방법을 능가하며, 자가 유효성 구성 요소에서 중요한 이점을 얻는다는 것을 보여줍니다.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary