Halluzinationsentgiftung: Empfindliches Neuronenaussetzen (SeND) für das Training großer Sprachmodelle

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

October 20, 2024
Autoren: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI

Zusammenfassung

Mit dem zunehmenden Einsatz großer Sprachmodelle (LLMs) in verschiedenen Branchen wachsen Bedenken hinsichtlich ihrer Zuverlässigkeit, insbesondere aufgrund von Halluzinationen - Ausgaben, die faktisch inkorrekt oder für die Benutzereingabe irrelevant sind. Unsere Forschung untersucht die Beziehung zwischen dem Trainingsprozess und dem Auftreten von Halluzinationen, um eine wesentliche Lücke in der bestehenden Forschung zu adressieren, die sich hauptsächlich auf nachträgliche Erkennungs- und Minderungsstrategien konzentriert. Unter Verwendung von Modellen aus der Pythia-Suite (70M-12B Parameter) und mehreren Halluzinationserkennungsmetriken analysieren wir Halluzinationstrends während des Trainings und erforschen die internen Dynamiken von LLMs. Wir stellen SEnsitive Neuron Dropout (SeND) vor, ein neuartiges Trainingsprotokoll, das darauf abzielt, Halluzinationen zu mindern, indem es die Varianz während des Trainings reduziert. SeND erreicht dies, indem es Neuronen mit signifikanter Variabilität auf einem Datensatz deterministisch auslässt, die als Sensitive Neurons bezeichnet werden. Darüber hinaus entwickeln wir eine unüberwachte Halluzinationserkennungsmetrik, Efficient EigenScore (EES), die den traditionellen EigenScore in doppelter Geschwindigkeit approximiert. Diese effiziente Metrik ist in unser Protokoll integriert, was SeND sowohl rechnerisch skalierbar als auch effektiv bei der Reduzierung von Halluzinationen macht. Unsere empirische Evaluierung zeigt, dass unser Ansatz die Zuverlässigkeit von LLMs zur Testzeit um bis zu 40% im Vergleich zum normalen Training verbessert und gleichzeitig eine effiziente Methode bietet, um die faktische Genauigkeit bei der Anpassung von LLMs an Bereiche wie Wikipedia und medizinische Datensätze zu verbessern.
English
As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Summary

AI-Generated Summary

PDF12November 16, 2024