自己進化型クリティックを介したスケーラブルな監督の実現
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
著者: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
要旨
優れた性能を持つ大規模言語モデル(LLMs)の開発は、スケーラブルな監視において重要な課題に直面しています。人間の評価が困難なタスクやLLMsが人間を上回るタスクに対して、効果的なフィードバックを提供することがその課題です。LLMsを批評に活用する動きが増えていますが、現在のアプローチは人間の注釈やより強力なモデルに依存しており、外部の監督なしに批評能力を向上させる問題は未解決のままです。私たちは、SCRIT(Self-evolving CRITic)というフレームワークを導入します。SCRITは、真の自己進化を可能にする批評能力を持っています。技術的には、SCRITは、ステップバイステップの批評のための参照解を使用する対照ベースの自己批評と、修正結果を通じて批評の品質を確認する自己検証メカニズムによって生成された合成データでトレーニングすることで自己改善します。最も強力なLLMsの1つであるQwen2.5-72B-Instructで実装されたSCRITは、批評修正とエラー識別のベンチマークで最大10.3%の改善を達成します。私たちの分析によると、SCRITのパフォーマンスはデータとモデルのサイズとともに正の方向にスケーリングされ、他のアプローチを上回り、自己検証コンポーネントから重要な利益を得ています。
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary