PlainQAFact: Automatische Metrik zur Bewertung der Faktizität für die Generierung biomedizinischer Zusammenfassungen in einfacher Sprache
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
Autoren: Zhiwen You, Yue Guo
cs.AI
Zusammenfassung
Halluzinierte Ausgaben von Sprachmodellen bergen Risiken im medizinischen Bereich, insbesondere für Laien, die gesundheitsbezogene Entscheidungen treffen. Bestehende Methoden zur Bewertung der Faktizität, wie solche, die auf Entailment und Frage-Antwort-Systemen (QA) basieren, haben Schwierigkeiten mit der Erstellung von Zusammenfassungen in einfacher Sprache (Plain Language Summary, PLS), da das Phänomen der elaborativen Erklärung externen Inhalt (z. B. Definitionen, Hintergrundinformationen, Beispiele) einführt, der im Ausgangsdokument nicht vorhanden ist, um das Verständnis zu verbessern. Um dies zu lösen, stellen wir PlainQAFact vor, ein Framework, das auf einem fein abgestuften, von Menschen annotierten Datensatz namens PlainFact trainiert wurde, um die Faktizität sowohl von vereinfachten als auch von elaborativ erklärten Sätzen zu bewerten. PlainQAFact klassifiziert zunächst den Faktizitätstyp und bewertet dann die Faktizität mithilfe einer retrieval-gestützten QA-basierten Bewertungsmethode. Unser Ansatz ist ressourcenschonend und recheneffizient. Empirische Ergebnisse zeigen, dass bestehende Faktizitätsmetriken die Faktizität in PLS, insbesondere bei elaborativen Erklärungen, nicht effektiv bewerten können, während PlainQAFact state-of-the-art Leistung erzielt. Wir analysieren weiterhin seine Wirksamkeit über externe Wissensquellen, Strategien zur Antwortextraktion, Überlappungsmaße und Dokumentgranularitätsebenen hinweg und verfeinern so seine Gesamtbewertung der Faktizität.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.Summary
AI-Generated Summary