HALoGEN: Fantastici allucinazioni LLM e dove trovarle

HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

January 14, 2025
Autori: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI

Abstract

Nonostante la loro impressionante capacità di generare testi di alta qualità e scorrevoli, i grandi modelli di linguaggio generativo (LLM) producono anche allucinazioni: affermazioni che non sono allineate con la conoscenza del mondo stabilita o con il contesto di input fornito. Tuttavia, misurare le allucinazioni può essere impegnativo, poiché far verificare ai umani le generazioni del modello in tempo reale è sia costoso che richiede tempo. In questo lavoro, presentiamo HALoGEN, un completo benchmark sulle allucinazioni composto da: (1) 10.923 prompt per modelli generativi che spaziano su nove domini, tra cui programmazione, attribuzione scientifica e riassunto, e (2) verificatori automatici ad alta precisione per ciascun caso d'uso che scompongono le generazioni LLM in unità atomiche e verificano ciascuna unità con una fonte di conoscenza di alta qualità. Utilizziamo questo framework per valutare circa 150.000 generazioni da 14 modelli linguistici, scoprendo che anche i modelli con le prestazioni migliori sono disseminati di allucinazioni (a volte fino all'86% dei fatti atomici generati a seconda del dominio). Definiamo inoltre una nuova classificazione degli errori per le allucinazioni LLM basata su se derivino probabilmente da un ricordo errato dei dati di addestramento (errori di Tipo A), da una conoscenza errata nei dati di addestramento (errori di Tipo B), o siano una fabbricazione (errori di Tipo C). Speriamo che il nostro framework fornisca una base per consentire lo studio metodico del motivo per cui i modelli generativi producono allucinazioni e favorisca lo sviluppo di modelli di linguaggio di grandi dimensioni affidabili.
English
Despite their impressive ability to generate high-quality and fluent text, generative large language models (LLMs) also produce hallucinations: statements that are misaligned with established world knowledge or provided input context. However, measuring hallucination can be challenging, as having humans verify model generations on-the-fly is both expensive and time-consuming. In this work, we release HALoGEN, a comprehensive hallucination benchmark consisting of: (1) 10,923 prompts for generative models spanning nine domains including programming, scientific attribution, and summarization, and (2) automatic high-precision verifiers for each use case that decompose LLM generations into atomic units, and verify each unit against a high-quality knowledge source. We use this framework to evaluate ~150,000 generations from 14 language models, finding that even the best-performing models are riddled with hallucinations (sometimes up to 86% of generated atomic facts depending on the domain). We further define a novel error classification for LLM hallucinations based on whether they likely stem from incorrect recollection of training data (Type A errors), or incorrect knowledge in training data (Type B errors), or are fabrication (Type C errors). We hope our framework provides a foundation to enable the principled study of why generative models hallucinate, and advances the development of trustworthy large language models.

Summary

AI-Generated Summary

PDF162January 15, 2025