Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
Авторы: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
Аннотация
Галлюцинации в больших языковых моделях (LLM) представляют серьезную проблему для их безопасного использования в реальных приложениях. Современные подходы используют латентное пространство LLM для обнаружения галлюцинаций, однако их эмбеддинги, оптимизированные для лингвистической связности, а не для фактической точности, часто не позволяют четко разделить правдивый и галлюцинированный контент. В связи с этим мы предлагаем Вектор Разделения Правдивости (Truthfulness Separator Vector, TSV) — легковесный и гибкий управляющий вектор, который преобразует пространство представлений LLM во время вывода, чтобы усилить разделение между правдивыми и галлюцинированными выходами, не изменяя параметры модели. Наш двухэтапный подход сначала обучает TSV на небольшом наборе размеченных примеров для формирования компактных и хорошо разделенных кластеров. Затем он расширяет набор примеров сгенерированными LLM данными без меток, используя алгоритм на основе оптимального транспорта для псевдоразметки в сочетании с процессом фильтрации на основе уверенности. Многочисленные эксперименты показывают, что TSV достигает наилучших результатов с минимальным объемом размеченных данных, демонстрируя высокую обобщающую способность на различных наборах данных и предоставляя практическое решение для реальных приложений LLM.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary