Désintoxication des hallucinations : abandon sensible de neurones (SeND) pour l'entraînement de grands modèles de langage

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

October 20, 2024
Auteurs: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI

Résumé

À mesure que les grands modèles de langage (LLMs) sont de plus en plus déployés dans diverses industries, les préoccupations concernant leur fiabilité, en particulier en raison des hallucinations - des sorties qui sont factuellement inexactes ou sans rapport avec l'entrée de l'utilisateur - ont augmenté. Notre recherche examine la relation entre le processus d'entraînement et l'émergence d'hallucinations pour combler une lacune clé dans les recherches existantes qui se concentrent principalement sur les stratégies de détection et d'atténuation a posteriori. En utilisant des modèles de la suite Pythia (70M-12B paramètres) et plusieurs métriques de détection d'hallucinations, nous analysons les tendances des hallucinations tout au long de l'entraînement et explorons la dynamique interne des LLM. Nous introduisons SEnsitive Neuron Dropout (SeND), un nouveau protocole d'entraînement conçu pour atténuer les hallucinations en réduisant la variance pendant l'entraînement. SeND y parvient en abandonnant de manière déterministe les neurones présentant une variabilité significative sur un ensemble de données, appelés Neurones Sensibles. De plus, nous développons une métrique de détection d'hallucinations non supervisée, Efficient EigenScore (EES), qui approxime l'EigenScore traditionnel deux fois plus rapidement. Cette métrique efficace est intégrée dans notre protocole, permettant à SeND d'être à la fois évolutif sur le plan computationnel et efficace pour réduire les hallucinations. Notre évaluation empirique démontre que notre approche améliore la fiabilité des LLM au moment du test jusqu'à 40% par rapport à l'entraînement normal, tout en offrant également une méthode efficace pour améliorer la précision factuelle lors de l'adaptation des LLM à des domaines tels que Wikipedia et les ensembles de données médicales.
English
As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Summary

AI-Generated Summary

PDF12November 16, 2024