Fragebeantwortung in Patientenkrankengeschichten mit privat feinabgestimmten LLMs
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs
January 23, 2025
Autoren: Sara Kothari, Ayush Gupta
cs.AI
Zusammenfassung
Gesundheitssysteme erzeugen kontinuierlich große Mengen an elektronischen Gesundheitsakten (EHRs), die üblicherweise im Standard für schnelle Gesundheitsinteroperabilität (FHIR) gespeichert sind. Trotz des Reichtums an Informationen in diesen Aufzeichnungen erschweren ihre Komplexität und Menge es den Benutzern, entscheidende Gesundheitseinblicke abzurufen und zu interpretieren. Neueste Fortschritte in Large Language Models (LLMs) bieten eine Lösung, die semantische Fragebeantwortung (QA) über medizinische Daten ermöglicht und es den Benutzern ermöglicht, effektiver mit ihren Gesundheitsakten zu interagieren. Die Sicherstellung von Datenschutz und Einhaltung erfordert jedoch Edge- und private Bereitstellungen von LLMs.
Dieser Artikel schlägt einen neuartigen Ansatz zur semantischen QA über EHRs vor, indem zunächst die relevantesten FHIR-Ressourcen für eine Benutzeranfrage identifiziert werden (Aufgabe 1) und anschließend die Anfrage basierend auf diesen Ressourcen beantwortet wird (Aufgabe 2). Wir untersuchen die Leistung von privat gehosteten, feinabgestimmten LLMs und evaluieren sie im Vergleich zu Benchmark-Modellen wie GPT-4 und GPT-4o. Unsere Ergebnisse zeigen, dass feinabgestimmte LLMs, obwohl sie um den Faktor 250 kleiner sind, die Modelle der GPT-4-Familie um 0,55 % im F1-Score in Aufgabe 1 und um 42 % in der Meteor-Aufgabe in Aufgabe 2 übertreffen. Darüber hinaus untersuchen wir fortgeschrittene Aspekte der LLM-Nutzung, einschließlich sequenzieller Feinabstimmung, Modell-Selbstbewertung (narzisstische Bewertung) und den Einfluss der Trainingsdatengröße auf die Leistung. Die Modelle und Datensätze sind hier verfügbar: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health
records (EHRs), commonly stored in the Fast Healthcare Interoperability
Resources (FHIR) standard. Despite the wealth of information in these records,
their complexity and volume make it difficult for users to retrieve and
interpret crucial health insights. Recent advances in Large Language Models
(LLMs) offer a solution, enabling semantic question answering (QA) over medical
data, allowing users to interact with their health records more effectively.
However, ensuring privacy and compliance requires edge and private deployments
of LLMs.
This paper proposes a novel approach to semantic QA over EHRs by first
identifying the most relevant FHIR resources for a user query (Task1) and
subsequently answering the query based on these resources (Task2). We explore
the performance of privately hosted, fine-tuned LLMs, evaluating them against
benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that
fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by
0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we
examine advanced aspects of LLM usage, including sequential fine-tuning, model
self-evaluation (narcissistic evaluation), and the impact of training data size
on performance. The models and datasets are available here:
https://huggingface.co/genloopSummary
AI-Generated Summary