Vraagbeantwoording op medische dossiers van patiënten met privé fijnafgestemde LLM's.

Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

January 23, 2025
Auteurs: Sara Kothari, Ayush Gupta
cs.AI

Samenvatting

Gezondheidszorgsystemen genereren voortdurend enorme hoeveelheden elektronische patiëntendossiers (EHR's), die doorgaans worden opgeslagen in de standaard voor Snelle Gezondheidsinteroperabiliteit Resources (FHIR). Ondanks de overvloed aan informatie in deze dossiers, maken hun complexiteit en omvang het moeilijk voor gebruikers om cruciale gezondheidsinzichten op te halen en te interpreteren. Recente ontwikkelingen in Grote Taalmodellen (LLM's) bieden een oplossing door semantische vraagbeantwoording (QA) over medische gegevens mogelijk te maken, waardoor gebruikers effectiever kunnen omgaan met hun gezondheidsdossiers. Het waarborgen van privacy en naleving vereist echter implementaties van LLM's aan de rand en privé. Dit artikel stelt een nieuwe benadering voor van semantische QA over EHR's door eerst de meest relevante FHIR-bronnen voor een gebruikersquery te identificeren (Taak1) en vervolgens de query te beantwoorden op basis van deze bronnen (Taak2). We onderzoeken de prestaties van privé gehoste, fijnafgestemde LLM's en evalueren ze tegen benchmarkmodellen zoals GPT-4 en GPT-4o. Onze resultaten tonen aan dat fijnafgestemde LLM's, hoewel 250x kleiner in omvang, GPT-4-familiemodellen overtreffen met 0,55% in F1-score op Taak1 en 42% op de Meteor-taak in Taak2. Daarnaast onderzoeken we geavanceerde aspecten van LLM-gebruik, waaronder sequentieel fijnafstemmen, modelzelfevaluatie (narcistische evaluatie) en de impact van trainingsgegevensomvang op prestaties. De modellen en datasets zijn hier beschikbaar: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health records (EHRs), commonly stored in the Fast Healthcare Interoperability Resources (FHIR) standard. Despite the wealth of information in these records, their complexity and volume make it difficult for users to retrieve and interpret crucial health insights. Recent advances in Large Language Models (LLMs) offer a solution, enabling semantic question answering (QA) over medical data, allowing users to interact with their health records more effectively. However, ensuring privacy and compliance requires edge and private deployments of LLMs. This paper proposes a novel approach to semantic QA over EHRs by first identifying the most relevant FHIR resources for a user query (Task1) and subsequently answering the query based on these resources (Task2). We explore the performance of privately hosted, fine-tuned LLMs, evaluating them against benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by 0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we examine advanced aspects of LLM usage, including sequential fine-tuning, model self-evaluation (narcissistic evaluation), and the impact of training data size on performance. The models and datasets are available here: https://huggingface.co/genloop

Summary

AI-Generated Summary

PDF72January 27, 2025