Abilitare la supervisione scalabile tramite un critico auto-evolutivo.

Enabling Scalable Oversight via Self-Evolving Critic

January 10, 2025
Autori: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI

Abstract

Nonostante le loro prestazioni notevoli, lo sviluppo dei Grandi Modelli Linguistici (LLM) affronta una sfida critica nella supervisione scalabile: fornire un feedback efficace per compiti in cui l'evaluazione umana è difficile o in cui i LLM superano gli esseri umani. Sebbene vi sia un crescente interesse nell'utilizzo dei LLM per la critica, gli approcci attuali si basano ancora su annotazioni umane o modelli più potenti, lasciando irrisolto il problema dell'incremento delle capacità critiche senza supervisione esterna. Presentiamo SCRIT (CRITico in Auto-evoluzione), un framework che consente una vera auto-evoluzione delle capacità critiche. Tecnicamente, SCRIT si migliora autonomamente addestrandosi su dati sintetici, generati da un auto-critico basato su contrasto che utilizza soluzioni di riferimento per la critica passo dopo passo, e un meccanismo di auto-validazione che garantisce la qualità della critica attraverso gli esiti delle correzioni. Implementato con Qwen2.5-72B-Instruct, uno dei LLM più potenti, SCRIT ottiene fino a un miglioramento del 10,3\% nei benchmark di correzione della critica e identificazione degli errori. La nostra analisi rivela che le prestazioni di SCRIT scalano positivamente con la dimensione dei dati e del modello, superano gli approcci alternativi e beneficiano in modo critico del suo componente di auto-validazione.
English
Despite their remarkable performance, the development of Large Language Models (LLMs) faces a critical challenge in scalable oversight: providing effective feedback for tasks where human evaluation is difficult or where LLMs outperform humans. While there is growing interest in using LLMs for critique, current approaches still rely on human annotations or more powerful models, leaving the issue of enhancing critique capabilities without external supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework that enables genuine self-evolution of critique abilities. Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based self-critic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs, SCRIT achieves up to a 10.3\% improvement on critique-correction and error identification benchmarks. Our analysis reveals that SCRIT's performance scales positively with data and model size, outperforms alternative approaches, and benefits critically from its self-validation component.

Summary

AI-Generated Summary

PDF642January 13, 2025