HALoGEN: Alucinações LLM Fantásticas e Onde Encontrá-las
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
January 14, 2025
Autores: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI
Resumo
Apesar de sua impressionante capacidade de gerar texto de alta qualidade e fluente, os grandes modelos de linguagem generativos (LLMs) também produzem alucinações: declarações que não estão alinhadas com o conhecimento mundial estabelecido ou com o contexto de entrada fornecido. No entanto, medir a alucinação pode ser desafiador, uma vez que ter humanos verificando as gerações do modelo em tempo real é caro e demorado. Neste trabalho, lançamos o HALoGEN, um amplo benchmark de alucinação composto por: (1) 10.923 prompts para modelos generativos abrangendo nove domínios, incluindo programação, atribuição científica e sumarização, e (2) verificadores automáticos de alta precisão para cada caso de uso que decomponham as gerações do LLM em unidades atômicas e verifiquem cada unidade em relação a uma fonte de conhecimento de alta qualidade. Utilizamos este framework para avaliar ~150.000 gerações de 14 modelos de linguagem, descobrindo que mesmo os modelos com melhor desempenho estão repletos de alucinações (às vezes até 86% dos fatos atômicos gerados, dependendo do domínio). Definimos ainda uma nova classificação de erro para alucinações de LLM com base em se provavelmente derivam de uma recordação incorreta dos dados de treinamento (erros do Tipo A), conhecimento incorreto nos dados de treinamento (erros do Tipo B) ou são fabricações (erros do Tipo C). Esperamos que nosso framework forneça uma base para possibilitar o estudo fundamentado do motivo pelo qual os modelos generativos alucinam e avance no desenvolvimento de grandes modelos de linguagem confiáveis.
English
Despite their impressive ability to generate high-quality and fluent text,
generative large language models (LLMs) also produce hallucinations: statements
that are misaligned with established world knowledge or provided input context.
However, measuring hallucination can be challenging, as having humans verify
model generations on-the-fly is both expensive and time-consuming. In this
work, we release HALoGEN, a comprehensive hallucination benchmark consisting
of: (1) 10,923 prompts for generative models spanning nine domains including
programming, scientific attribution, and summarization, and (2) automatic
high-precision verifiers for each use case that decompose LLM generations into
atomic units, and verify each unit against a high-quality knowledge source. We
use this framework to evaluate ~150,000 generations from 14 language models,
finding that even the best-performing models are riddled with hallucinations
(sometimes up to 86% of generated atomic facts depending on the domain). We
further define a novel error classification for LLM hallucinations based on
whether they likely stem from incorrect recollection of training data (Type A
errors), or incorrect knowledge in training data (Type B errors), or are
fabrication (Type C errors). We hope our framework provides a foundation to
enable the principled study of why generative models hallucinate, and advances
the development of trustworthy large language models.Summary
AI-Generated Summary