LettuceDetect: Фреймворк для обнаружения галлюцинаций в приложениях на основе RAG
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
Авторы: Ádám Kovács, Gábor Recski
cs.AI
Аннотация
Системы генерации с использованием извлечения информации (Retrieval Augmented Generation, RAG) остаются уязвимыми к галлюцинациям в ответах, несмотря на использование внешних источников знаний. Мы представляем LettuceDetect — фреймворк, который устраняет два ключевых ограничения существующих методов обнаружения галлюцинаций: (1) ограничения контекстного окна традиционных методов на основе кодировщиков и (2) вычислительную неэффективность подходов, основанных на больших языковых моделях (LLM). Используя расширенные возможности контекста ModernBERT (до 8 тысяч токенов) и обучение на наборе данных RAGTruth, наш подход превосходит все предыдущие модели на основе кодировщиков и большинство моделей, основанных на промптах, при этом будучи примерно в 30 раз меньше лучших моделей. LettuceDetect представляет собой модель классификации токенов, которая обрабатывает тройки контекст-вопрос-ответ, что позволяет выявлять неподтвержденные утверждения на уровне токенов. Оценки на корпусе RAGTruth демонстрируют показатель F1 в 79,22% для обнаружения на уровне примеров, что на 14,8% лучше, чем у Luna — предыдущей передовой архитектуры на основе кодировщиков. Кроме того, система способна обрабатывать от 30 до 60 примеров в секунду на одном GPU, что делает её более практичной для реальных приложений RAG.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary