NILE: Alinhamento de Consistência Interna em Modelos de Linguagem Grandes

Resumo

Como um passo crucial para melhorar o alinhamento dos LLMs com as intenções humanas, o Ajuste Fino de Instruções (AFI) tem uma alta demanda por qualidade de conjunto de dados. No entanto, os conjuntos de dados de AFI existentes frequentemente contêm conhecimento que é inconsistente com o conhecimento interno dos LLMs aprendido da fase de pré-treinamento, o que pode afetar significativamente a eficácia do AFI. Para lidar com esse problema, introduzimos o framework NILE (alinhamento de consistência interna), com o objetivo de otimizar conjuntos de dados de AFI para desbloquear ainda mais a capacidade dos LLMs. O NILE opera ao elicitar o conhecimento interno do LLM pré-treinado alvo correspondente aos dados de instrução. O conhecimento interno é utilizado para revisar a resposta nos conjuntos de dados de AFI. Além disso, propomos um novo método de Filtragem de Consistência Interna (FCI) para filtrar amostras de treinamento, garantindo sua alta consistência com o conhecimento interno do LLM. Nossos experimentos demonstram que os conjuntos de dados de AFI alinhados pelo NILE impulsionam significativamente o desempenho dos LLMs em diversos conjuntos de dados de avaliação de habilidades dos LLMs, alcançando até 66,6% de ganho no Arena-Hard e 68,5% no Alpaca-Eval V2. Análises adicionais confirmam que cada componente do framework NILE contribui para essas melhorias substanciais de desempenho, e fornecem evidências convincentes de que a consistência do conjunto de dados com o conhecimento interno pré-treinado é fundamental para maximizar o potencial dos LLMs.

English

As a crucial step to enhance LLMs alignment with human intentions, Instruction Fine-Tuning (IFT) has a high demand on dataset quality. However, existing IFT datasets often contain knowledge that is inconsistent with LLMs' internal knowledge learned from the pre-training phase, which can greatly affect the efficacy of IFT. To address this issue, we introduce NILE (iNternal consIstency aLignmEnt) framework, aimed at optimizing IFT datasets to unlock LLMs' capability further. NILE operates by eliciting target pre-trained LLM's internal knowledge corresponding to instruction data. The internal knowledge is leveraged to revise the answer in IFT datasets. Additionally, we propose a novel Internal Consistency Filtering (ICF) method to filter training samples, ensuring its high consistency with LLM's internal knowledge. Our experiments demonstrate that NILE-aligned IFT datasets sharply boost LLM performance across multiple LLM ability evaluation datasets, achieving up to 66.6% gain on Arena-Hard and 68.5% on Alpaca-Eval V2. Further analysis confirms that each component of the NILE}framework contributes to these substantial performance improvements, and provides compelling evidence that dataset consistency with pre-trained internal knowledge is pivotal for maximizing LLM potential.

NILE: Alinhamento de Consistência Interna em Modelos de Linguagem Grandes

NILE: Internal Consistency Alignment in Large Language Models

Resumo

Summary

Support