Les données synthétiques fictives peuvent améliorer la factualité de LLM via l'apprentissage préalable.

Résumé

Des études récentes ont identifié un facteur aggravant des hallucinations des LLM comme l'incohérence des connaissances entre la pré-formation et le fine-tuning, où des données de fine-tuning non familières induisent en erreur le LLM pour produire des sorties plausibles mais incorrectes. Dans cet article, nous proposons une nouvelle stratégie de fine-tuning appelée Prereq-Tune pour résoudre cette incohérence des connaissances et réduire les hallucinations. Fondamentalement, Prereq-Tune démêle l'apprentissage des compétences et des connaissances, de sorte que le modèle n'apprend que les compétences de la tâche sans être affecté par l'incohérence des connaissances. Pour y parvenir, Prereq-Tune introduit une étape d'apprentissage préalable supplémentaire pour acquérir les connaissances nécessaires à SFT, permettant ainsi à SFT ultérieur de se concentrer uniquement sur les compétences de la tâche. Prereq-Tune peut également être combiné avec des données synthétiques fictives pour renforcer l'ancrage des sorties de LLM à leurs connaissances internes. Les expériences montrent que Prereq-Tune surpasse les bases existantes en améliorant la factualité des LLM sur des tâches de questions-réponses courtes et de génération de longs textes. Il ouvre également de nouvelles possibilités pour la génération contrôlée par les connaissances dans les LLM. Notre code est disponible sur https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

English

Recent studies have identified one aggravating factor of LLM hallucinations as the knowledge inconsistency between pre-training and fine-tuning, where unfamiliar fine-tuning data mislead the LLM to fabricate plausible but wrong outputs. In this paper, we propose a novel fine-tuning strategy called Prereq-Tune to address this knowledge inconsistency and reduce hallucinations. Fundamentally, Prereq-Tune disentangles the learning of skills and knowledge, so the model learns only the task skills without being impacted by the knowledge inconsistency. To achieve this, Prereq-Tune introduces an additional prerequisite learning stage to learn the necessary knowledge for SFT, allowing subsequent SFT to focus only on task skills. Prereq-Tune can also be combined with fictitious synthetic data to enhance the grounding of LLM outputs to their internal knowledge. Experiments show that Prereq-Tune outperforms existing baselines in improving LLM's factuality across short QA and long-form generation tasks. It also opens new possibilities for knowledge-controlled generation in LLMs. Our code is available at https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

Les données synthétiques fictives peuvent améliorer la factualité de LLM via l'apprentissage préalable.

Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Résumé

Support