Hallucinatie Detox: Gevoelige Neuronenuitschakeling (SeND) voor Training van Grote Taalmodellen

Samenvatting

Naarmate grote taalmodellen (LLM's) steeds meer worden ingezet in verschillende sectoren, zijn er zorgen ontstaan over hun betrouwbaarheid, met name vanwege hallucinaties - uitvoer die feitelijk onjuist of irrelevant is voor de gebruikersinvoer. Ons onderzoek onderzoekt de relatie tussen het trainingsproces en het ontstaan van hallucinaties om een belangrijke lacune in bestaand onderzoek aan te pakken dat zich voornamelijk richt op post-hoc detectie- en mitigatiestrategieën. Met behulp van modellen uit de Pythia-suite (70M-12B parameters) en verschillende hallucinatiedetectiemetrieken analyseren we hallucinatietrends gedurende de training en verkennen we de interne dynamiek van LLM's. We introduceren SEnsitive Neuron Dropout (SeND), een nieuw trainingsprotocol dat is ontworpen om hallucinaties te verminderen door de variantie tijdens de training te verlagen. SeND bereikt dit door deterministisch neuronen te laten vallen met aanzienlijke variabiliteit in een dataset, aangeduid als Gevoelige Neuronen. Daarnaast ontwikkelen we een ongesuperviseerde hallucinatiedetectiemetrie, Efficiënte EigenScore (EES), die de traditionele EigenScore benadert met een snelheid van 2x. Deze efficiënte metriek is geïntegreerd in ons protocol, waardoor SeND zowel computationeel schaalbaar als effectief is in het verminderen van hallucinaties. Onze empirische evaluatie toont aan dat onze aanpak de betrouwbaarheid van LLM's bij testtijd met maximaal 40% verbetert in vergelijking met normale training, terwijl het ook een efficiënte methode biedt om de feitelijke nauwkeurigheid te verbeteren bij het aanpassen van LLM's aan domeinen zoals Wikipedia en medische datasets.

English

As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Hallucinatie Detox: Gevoelige Neuronenuitschakeling (SeND) voor Training van Grote Taalmodellen

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

Samenvatting

Support