Halluzinationsentgiftung: Empfindliches Neuronenaussetzen (SeND) für das Training großer Sprachmodelle
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
October 20, 2024
Autoren: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI
Zusammenfassung
Mit dem zunehmenden Einsatz großer Sprachmodelle (LLMs) in verschiedenen Branchen wachsen Bedenken hinsichtlich ihrer Zuverlässigkeit, insbesondere aufgrund von Halluzinationen - Ausgaben, die faktisch inkorrekt oder für die Benutzereingabe irrelevant sind. Unsere Forschung untersucht die Beziehung zwischen dem Trainingsprozess und dem Auftreten von Halluzinationen, um eine wesentliche Lücke in der bestehenden Forschung zu adressieren, die sich hauptsächlich auf nachträgliche Erkennungs- und Minderungsstrategien konzentriert. Unter Verwendung von Modellen aus der Pythia-Suite (70M-12B Parameter) und mehreren Halluzinationserkennungsmetriken analysieren wir Halluzinationstrends während des Trainings und erforschen die internen Dynamiken von LLMs. Wir stellen SEnsitive Neuron Dropout (SeND) vor, ein neuartiges Trainingsprotokoll, das darauf abzielt, Halluzinationen zu mindern, indem es die Varianz während des Trainings reduziert. SeND erreicht dies, indem es Neuronen mit signifikanter Variabilität auf einem Datensatz deterministisch auslässt, die als Sensitive Neurons bezeichnet werden. Darüber hinaus entwickeln wir eine unüberwachte Halluzinationserkennungsmetrik, Efficient EigenScore (EES), die den traditionellen EigenScore in doppelter Geschwindigkeit approximiert. Diese effiziente Metrik ist in unser Protokoll integriert, was SeND sowohl rechnerisch skalierbar als auch effektiv bei der Reduzierung von Halluzinationen macht. Unsere empirische Evaluierung zeigt, dass unser Ansatz die Zuverlässigkeit von LLMs zur Testzeit um bis zu 40% im Vergleich zum normalen Training verbessert und gleichzeitig eine effiziente Methode bietet, um die faktische Genauigkeit bei der Anpassung von LLMs an Bereiche wie Wikipedia und medizinische Datensätze zu verbessern.
English
As large language models (LLMs) become increasingly deployed across various
industries, concerns regarding their reliability, particularly due to
hallucinations-outputs that are factually inaccurate or irrelevant to user
input-have grown. Our research investigates the relationship between the
training process and the emergence of hallucinations to address a key gap in
existing research that focuses primarily on post hoc detection and mitigation
strategies. Using models from the Pythia suite (70M-12B parameters) and several
hallucination detection metrics, we analyze hallucination trends throughout
training and explore LLM internal dynamics. We introduce SEnsitive Neuron
Dropout (SeND), a novel training protocol designed to mitigate hallucinations
by reducing variance during training. SeND achieves this by deterministically
dropping neurons with significant variability on a dataset, referred to as
Sensitive Neurons. In addition, we develop an unsupervised hallucination
detection metric, Efficient EigenScore (EES), which approximates the
traditional EigenScore in 2x speed. This efficient metric is integrated into
our protocol, allowing SeND to be both computationally scalable and effective
at reducing hallucinations. Our empirical evaluation demonstrates that our
approach improves LLM reliability at test time by up to 40% compared to normal
training while also providing an efficient method to improve factual accuracy
when adapting LLMs to domains such as Wikipedia and Medical datasets.Summary
AI-Generated Summary