PlainQAFact: Automatische Metrik zur Bewertung der Faktizität für die Generierung biomedizinischer Zusammenfassungen in einfacher Sprache

Zusammenfassung

Halluzinierte Ausgaben von Sprachmodellen bergen Risiken im medizinischen Bereich, insbesondere für Laien, die gesundheitsbezogene Entscheidungen treffen. Bestehende Methoden zur Bewertung der Faktizität, wie solche, die auf Entailment und Frage-Antwort-Systemen (QA) basieren, haben Schwierigkeiten mit der Erstellung von Zusammenfassungen in einfacher Sprache (Plain Language Summary, PLS), da das Phänomen der elaborativen Erklärung externen Inhalt (z. B. Definitionen, Hintergrundinformationen, Beispiele) einführt, der im Ausgangsdokument nicht vorhanden ist, um das Verständnis zu verbessern. Um dies zu lösen, stellen wir PlainQAFact vor, ein Framework, das auf einem fein abgestuften, von Menschen annotierten Datensatz namens PlainFact trainiert wurde, um die Faktizität sowohl von vereinfachten als auch von elaborativ erklärten Sätzen zu bewerten. PlainQAFact klassifiziert zunächst den Faktizitätstyp und bewertet dann die Faktizität mithilfe einer retrieval-gestützten QA-basierten Bewertungsmethode. Unser Ansatz ist ressourcenschonend und recheneffizient. Empirische Ergebnisse zeigen, dass bestehende Faktizitätsmetriken die Faktizität in PLS, insbesondere bei elaborativen Erklärungen, nicht effektiv bewerten können, während PlainQAFact state-of-the-art Leistung erzielt. Wir analysieren weiterhin seine Wirksamkeit über externe Wissensquellen, Strategien zur Antwortextraktion, Überlappungsmaße und Dokumentgranularitätsebenen hinweg und verfeinern so seine Gesamtbewertung der Faktizität.

English

Hallucinated outputs from language models pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing factuality evaluation methods, such as entailment- and question-answering-based (QA), struggle with plain language summary (PLS) generation due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the source document to enhance comprehension. To address this, we introduce PlainQAFact, a framework trained on a fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of both source-simplified and elaboratively explained sentences. PlainQAFact first classifies factuality type and then assesses factuality using a retrieval-augmented QA-based scoring method. Our approach is lightweight and computationally efficient. Empirical results show that existing factuality metrics fail to effectively evaluate factuality in PLS, especially for elaborative explanations, whereas PlainQAFact achieves state-of-the-art performance. We further analyze its effectiveness across external knowledge sources, answer extraction strategies, overlap measures, and document granularity levels, refining its overall factuality assessment.

PlainQAFact: Automatische Metrik zur Bewertung der Faktizität für die Generierung biomedizinischer Zusammenfassungen in einfacher Sprache

PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

Zusammenfassung

Summary

Support

Support