Ermöglichen von skalierbarer Aufsicht durch selbstentwickelnde Kritiker.
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
Autoren: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Zusammenfassung
Trotz ihrer bemerkenswerten Leistung steht die Entwicklung von Großen Sprachmodellen (LLMs) vor einer entscheidenden Herausforderung in Bezug auf skalierbare Aufsicht: die Bereitstellung effektiven Feedbacks für Aufgaben, bei denen die menschliche Bewertung schwierig ist oder bei denen LLMs die Menschen übertreffen. Obwohl das Interesse an der Verwendung von LLMs für Kritik wächst, stützen sich aktuelle Ansätze immer noch auf menschliche Annotationen oder leistungsstärkere Modelle, was das Problem der Verbesserung der Kritikfähigkeiten ohne externe Aufsicht ungelöst lässt. Wir stellen SCRIT (Selbstentwickelnder Kritiker) vor, ein Framework, das eine echte Selbstentwicklung der Kritikfähigkeiten ermöglicht. Technisch gesehen verbessert sich SCRIT, indem es auf synthetischen Daten trainiert, die von einem kontrastiven selbstkritischen Ansatz generiert werden, der Referenzlösungen für eine schrittweise Kritik verwendet, sowie einen Selbstvalidierungsmechanismus, der die Qualität der Kritik durch Korrekturausgänge sicherstellt. Umgesetzt mit Qwen2.5-72B-Instruct, einem der leistungsstärksten LLMs, erzielt SCRIT eine Verbesserung von bis zu 10,3\% bei Kritik-Korrektur- und Fehleridentifikations-Benchmarks. Unsere Analyse zeigt, dass die Leistung von SCRIT positiv mit Daten- und Modellgröße skaliert, alternative Ansätze übertrifft und entscheidend von ihrem Selbstvalidierungskomponenten profitiert.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary