Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?

Аннотация

Галлюцинации в больших языковых моделях (LLM) представляют серьезную проблему для их безопасного использования в реальных приложениях. Современные подходы используют латентное пространство LLM для обнаружения галлюцинаций, однако их эмбеддинги, оптимизированные для лингвистической связности, а не для фактической точности, часто не позволяют четко разделить правдивый и галлюцинированный контент. В связи с этим мы предлагаем Вектор Разделения Правдивости (Truthfulness Separator Vector, TSV) — легковесный и гибкий управляющий вектор, который преобразует пространство представлений LLM во время вывода, чтобы усилить разделение между правдивыми и галлюцинированными выходами, не изменяя параметры модели. Наш двухэтапный подход сначала обучает TSV на небольшом наборе размеченных примеров для формирования компактных и хорошо разделенных кластеров. Затем он расширяет набор примеров сгенерированными LLM данными без меток, используя алгоритм на основе оптимального транспорта для псевдоразметки в сочетании с процессом фильтрации на основе уверенности. Многочисленные эксперименты показывают, что TSV достигает наилучших результатов с минимальным объемом размеченных данных, демонстрируя высокую обобщающую способность на различных наборах данных и предоставляя практическое решение для реальных приложений LLM.

English

Hallucinations in LLMs pose a significant concern to their safe deployment in real-world applications. Recent approaches have leveraged the latent space of LLMs for hallucination detection, but their embeddings, optimized for linguistic coherence rather than factual accuracy, often fail to clearly separate truthful and hallucinated content. To this end, we propose the Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector that reshapes the LLM's representation space during inference to enhance the separation between truthful and hallucinated outputs, without altering model parameters. Our two-stage framework first trains TSV on a small set of labeled exemplars to form compact and well-separated clusters. It then augments the exemplar set with unlabeled LLM generations, employing an optimal transport-based algorithm for pseudo-labeling combined with a confidence-based filtering process. Extensive experiments demonstrate that TSV achieves state-of-the-art performance with minimal labeled data, exhibiting strong generalization across datasets and providing a practical solution for real-world LLM applications.

Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?

How to Steer LLM Latents for Hallucination Detection?

Аннотация

Summary

Support