Possibilitando Supervisão Escalável por Meio de Crítico Autoevolutivo
Enabling Scalable Oversight via Self-Evolving Critic
January 10, 2025
Autores: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Resumo
Apesar do seu desempenho notável, o desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) enfrenta um desafio crítico em termos de supervisão escalável: fornecer feedback eficaz para tarefas em que a avaliação humana é difícil ou em que os LLMs superam os humanos. Embora haja um interesse crescente em utilizar LLMs para crítica, as abordagens atuais ainda dependem de anotações humanas ou de modelos mais poderosos, deixando sem solução a questão de aprimorar as capacidades de crítica sem supervisão externa. Apresentamos o SCRIT (CRITico Auto-evolutivo), um framework que possibilita uma verdadeira auto-evolução das habilidades de crítica. Tecnicamente, o SCRIT se aprimora treinando em dados sintéticos, gerados por um auto-crítico baseado em contraste que utiliza soluções de referência para crítica passo a passo, e um mecanismo de autovalidação que garante a qualidade da crítica por meio dos resultados de correção. Implementado com o Qwen2.5-72B-Instruct, um dos LLMs mais poderosos, o SCRIT alcança até 10,3\% de melhoria em benchmarks de correção de crítica e identificação de erros. Nossa análise revela que o desempenho do SCRIT aumenta positivamente com o tamanho dos dados e do modelo, supera abordagens alternativas e se beneficia criticamente do seu componente de autovalidação.
English
Despite their remarkable performance, the development of Large Language
Models (LLMs) faces a critical challenge in scalable oversight: providing
effective feedback for tasks where human evaluation is difficult or where LLMs
outperform humans. While there is growing interest in using LLMs for critique,
current approaches still rely on human annotations or more powerful models,
leaving the issue of enhancing critique capabilities without external
supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework
that enables genuine self-evolution of critique abilities. Technically, SCRIT
self-improves by training on synthetic data, generated by a contrastive-based
self-critic that uses reference solutions for step-by-step critique, and a
self-validation mechanism that ensures critique quality through correction
outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs,
SCRIT achieves up to a 10.3\% improvement on critique-correction and error
identification benchmarks. Our analysis reveals that SCRIT's performance scales
positively with data and model size, outperforms alternative approaches, and
benefits critically from its self-validation component.Summary
AI-Generated Summary