ProgCo: Programa Auxilia na Autocorreção de Modelos de Linguagem Grandes
ProgCo: Program Helps Self-Correction of Large Language Models
January 2, 2025
Autores: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng
cs.AI
Resumo
A Auto-Correção tem como objetivo permitir que grandes modelos de linguagem (LLMs) se autoverifiquem e se autorrefinem suas respostas iniciais sem feedback externo. No entanto, os LLMs frequentemente falham em se autoverificar de forma eficaz e gerar feedback correto, o que pode levar a um refinamento enganoso e resultar na falha da auto-correção, especialmente em tarefas de raciocínio complexas. Neste artigo, propomos a Auto-Correção Orientada por Programa (ProgCo). Primeiramente, a verificação orientada por programa (ProgVe) alcança lógica de verificação complexa e validação extensiva por meio de pseudo-programas de verificação auto-gerados e auto-executáveis. Em seguida, o refinamento orientado por programa (ProgRe) recebe feedback do ProgVe, realiza uma reflexão e refinamento duplo tanto nas respostas quanto nos programas de verificação para mitigar feedback incorreto em tarefas de raciocínio complexas. Experimentos em três conjuntos de dados de seguir instruções e matemáticos indicam que o ProgCo alcança uma auto-correção eficaz e pode ter seu desempenho aprimorado quando combinado com ferramentas de programa reais.
English
Self-Correction aims to enable large language models (LLMs) to self-verify
and self-refine their initial responses without external feedback. However,
LLMs often fail to effectively self-verify and generate correct feedback,
further misleading refinement and leading to the failure of self-correction,
especially in complex reasoning tasks. In this paper, we propose Program-driven
Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves
complex verification logic and extensive validation through self-generated,
self-executing verification pseudo-programs. Then, program-driven refinement
(ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement
on both responses and verification programs to mitigate misleading of incorrect
feedback in complex reasoning tasks. Experiments on three instruction-following
and mathematical benchmarks indicate that ProgCo achieves effective
self-correction, and can be further enhance performance when combined with real
program tools.Summary
AI-Generated Summary