HALoGEN: Fantastische LLM-Halluzinationen und wo man sie findet

HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

January 14, 2025
Autoren: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI

Zusammenfassung

Trotz ihrer beeindruckenden Fähigkeit, hochwertigen und fließenden Text zu generieren, erzeugen generative große Sprachmodelle (LLMs) auch Halluzinationen: Aussagen, die nicht mit etabliertem Weltwissen oder dem bereitgestellten Eingabekontext übereinstimmen. Die Messung von Halluzinationen kann jedoch herausfordernd sein, da die Überprüfung von Modellgenerierungen durch Menschen in Echtzeit sowohl teuer als auch zeitaufwändig ist. In dieser Arbeit veröffentlichen wir HALoGEN, einen umfassenden Halluzinationsbenchmark, bestehend aus: (1) 10.923 Anfragen für generative Modelle, die neun Bereiche abdecken, darunter Programmierung, wissenschaftliche Zuschreibung und Zusammenfassung, und (2) automatischen Hochpräzisionsverifiern für jeden Anwendungsfall, die LLM-Generierungen in atomare Einheiten zerlegen und jede Einheit mit einer hochwertigen Wissensquelle überprüfen. Wir verwenden dieses Framework, um etwa 150.000 Generierungen von 14 Sprachmodellen zu evaluieren und festzustellen, dass selbst die leistungsstärksten Modelle von Halluzinationen durchsetzt sind (manchmal bis zu 86% der generierten atomaren Fakten je nach Bereich). Wir definieren weiterhin eine neue Fehlerklassifizierung für LLM-Halluzinationen, basierend darauf, ob sie wahrscheinlich aus falscher Erinnerung an Trainingsdaten (Typ A-Fehler), falschem Wissen in Trainingsdaten (Typ B-Fehler) oder Fälschung (Typ C-Fehler) resultieren. Wir hoffen, dass unser Framework eine Grundlage für die systematische Untersuchung der Ursachen von Halluzinationen bei generativen Modellen bietet und die Entwicklung vertrauenswürdiger großer Sprachmodelle vorantreibt.
English
Despite their impressive ability to generate high-quality and fluent text, generative large language models (LLMs) also produce hallucinations: statements that are misaligned with established world knowledge or provided input context. However, measuring hallucination can be challenging, as having humans verify model generations on-the-fly is both expensive and time-consuming. In this work, we release HALoGEN, a comprehensive hallucination benchmark consisting of: (1) 10,923 prompts for generative models spanning nine domains including programming, scientific attribution, and summarization, and (2) automatic high-precision verifiers for each use case that decompose LLM generations into atomic units, and verify each unit against a high-quality knowledge source. We use this framework to evaluate ~150,000 generations from 14 language models, finding that even the best-performing models are riddled with hallucinations (sometimes up to 86% of generated atomic facts depending on the domain). We further define a novel error classification for LLM hallucinations based on whether they likely stem from incorrect recollection of training data (Type A errors), or incorrect knowledge in training data (Type B errors), or are fabrication (Type C errors). We hope our framework provides a foundation to enable the principled study of why generative models hallucinate, and advances the development of trustworthy large language models.

Summary

AI-Generated Summary

PDF162January 15, 2025