Hallucinatie Detox: Gevoelige Neuronenuitschakeling (SeND) voor Training van Grote Taalmodellen
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
October 20, 2024
Auteurs: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) steeds meer worden ingezet in verschillende sectoren, zijn er zorgen ontstaan over hun betrouwbaarheid, met name vanwege hallucinaties - uitvoer die feitelijk onjuist of irrelevant is voor de gebruikersinvoer. Ons onderzoek onderzoekt de relatie tussen het trainingsproces en het ontstaan van hallucinaties om een belangrijke lacune in bestaand onderzoek aan te pakken dat zich voornamelijk richt op post-hoc detectie- en mitigatiestrategieën. Met behulp van modellen uit de Pythia-suite (70M-12B parameters) en verschillende hallucinatiedetectiemetrieken analyseren we hallucinatietrends gedurende de training en verkennen we de interne dynamiek van LLM's. We introduceren SEnsitive Neuron Dropout (SeND), een nieuw trainingsprotocol dat is ontworpen om hallucinaties te verminderen door de variantie tijdens de training te verlagen. SeND bereikt dit door deterministisch neuronen te laten vallen met aanzienlijke variabiliteit in een dataset, aangeduid als Gevoelige Neuronen. Daarnaast ontwikkelen we een ongesuperviseerde hallucinatiedetectiemetrie, Efficiënte EigenScore (EES), die de traditionele EigenScore benadert met een snelheid van 2x. Deze efficiënte metriek is geïntegreerd in ons protocol, waardoor SeND zowel computationeel schaalbaar als effectief is in het verminderen van hallucinaties. Onze empirische evaluatie toont aan dat onze aanpak de betrouwbaarheid van LLM's bij testtijd met maximaal 40% verbetert in vergelijking met normale training, terwijl het ook een efficiënte methode biedt om de feitelijke nauwkeurigheid te verbeteren bij het aanpassen van LLM's aan domeinen zoals Wikipedia en medische datasets.
English
As large language models (LLMs) become increasingly deployed across various
industries, concerns regarding their reliability, particularly due to
hallucinations-outputs that are factually inaccurate or irrelevant to user
input-have grown. Our research investigates the relationship between the
training process and the emergence of hallucinations to address a key gap in
existing research that focuses primarily on post hoc detection and mitigation
strategies. Using models from the Pythia suite (70M-12B parameters) and several
hallucination detection metrics, we analyze hallucination trends throughout
training and explore LLM internal dynamics. We introduce SEnsitive Neuron
Dropout (SeND), a novel training protocol designed to mitigate hallucinations
by reducing variance during training. SeND achieves this by deterministically
dropping neurons with significant variability on a dataset, referred to as
Sensitive Neurons. In addition, we develop an unsupervised hallucination
detection metric, Efficient EigenScore (EES), which approximates the
traditional EigenScore in 2x speed. This efficient metric is integrated into
our protocol, allowing SeND to be both computationally scalable and effective
at reducing hallucinations. Our empirical evaluation demonstrates that our
approach improves LLM reliability at test time by up to 40% compared to normal
training while also providing an efficient method to improve factual accuracy
when adapting LLMs to domains such as Wikipedia and Medical datasets.Summary
AI-Generated Summary