ChatPaper.aiChatPaper

Mask-DPO: Обобщаемое тонкое согласование фактической точности в крупных языковых моделях

Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

March 4, 2025
Авторы: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют галлюцинации (т.е. недостоверную или бессмысленную информацию) при использовании в качестве ИИ-ассистентов в различных областях. Поскольку галлюцинации всегда сопровождаются достоверным содержанием в ответах LLM, предыдущие методы выравнивания фактической точности, основанные на обучении с предпочтениями на уровне ответов, неизбежно вносили шум в процесс обучения. В связи с этим, в данной статье предлагается метод тонкого выравнивания фактической точности на основе Direct Preference Optimization (DPO), называемый Mask-DPO. Включая фактическую точность на уровне предложений в качестве маскирующих сигналов, Mask-DPO обучается только на фактуально верных предложениях в предпочитаемых образцах и предотвращает штраф за достоверное содержание в непредпочитаемых образцах, что устраняет неоднозначность в обучении с предпочтениями. Результаты многочисленных экспериментов показывают, что Mask-DPO может значительно улучшить фактическую точность ответов LLM на вопросы как из внутридоменных, так и из внедоменных наборов данных, даже если эти вопросы и соответствующие темы не встречались во время обучения. Обучившись только на тренировочном наборе ANAH, показатель Llama3.1-8B-Instruct на тестовом наборе ANAH улучшился с 49,19% до 77,53%, превзойдя даже показатель Llama3.1-70B-Instruct (53,44%), в то время как его FactScore на внедоменном наборе данных Biography также улучшился с 30,29% до 39,39%. Мы дополнительно исследуем свойство обобщения Mask-DPO, используя различные стратегии масштабирования обучающих выборок, и обнаруживаем, что увеличение количества тем в наборе данных более эффективно, чем увеличение количества вопросов. Мы предлагаем гипотезу о том, что делает выравнивание фактической точности с LLM, обсуждаем последствия этого явления и проводим эксперименты для проверки этой гипотезы. Мы надеемся, что предложенный метод и полученные результаты послужат основой для будущих исследований в области масштабирования выравнивания фактической точности.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.

Summary

AI-Generated Summary

PDF182March 5, 2025