환자 의료 기록에 대한 개인화된 Feine-Tuned LLM을 활용한 질의응답
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs
January 23, 2025
저자: Sara Kothari, Ayush Gupta
cs.AI
초록
의료 시스템은 지속적으로 방대한 양의 전자 건강 기록(EHRs)을 생성하며, 이는 일반적으로 Fast Healthcare Interoperability Resources (FHIR) 표준에 저장됩니다. 이러한 기록에는 다양한 정보가 포함되어 있지만, 그 복잡성과 양 때문에 사용자들이 중요한 건강 정보를 검색하고 해석하기 어렵습니다. 최근 대형 언어 모델(LLMs)의 발전은 의료 데이터에 대한 의미론적 질문 응답(QA)을 가능하게 하여 사용자들이 건강 기록과 보다 효과적으로 상호 작용할 수 있도록 합니다. 그러나 개인 정보 보호와 규정 준수를 보장하기 위해서는 LLMs의 엣지 및 개인 배포가 필요합니다.
본 논문은 사용자 쿼리(Task1)에 가장 관련성 높은 FHIR 리소스를 먼저 식별하고, 이러한 리소스를 기반으로 쿼리에 답변하는 새로운 의미론적 QA 접근 방식을 제안합니다(Task2). 우리는 프라이빗하게 호스팅된, 세밀하게 튜닝된 LLMs의 성능을 탐구하며, GPT-4 및 GPT-4o와 같은 벤치마크 모델과 비교합니다. 우리의 결과는 세밀하게 튜닝된 LLMs가 크기면에서 250배 작지만, Task1의 F1 점수에서 GPT-4 패밀리 모델을 0.55% 능가하고, Task2의 Meteor Task에서 42% 우수함을 입증합니다. 더불어, 순차적 세밀 튜닝, 모델 자가 평가(나르시시즘 평가), 그리고 훈련 데이터 크기가 성능에 미치는 영향과 같은 LLM 사용의 고급 측면을 조사합니다. 모델 및 데이터셋은 여기에서 확인할 수 있습니다: https://huggingface.co/genloop
English
Healthcare systems continuously generate vast amounts of electronic health
records (EHRs), commonly stored in the Fast Healthcare Interoperability
Resources (FHIR) standard. Despite the wealth of information in these records,
their complexity and volume make it difficult for users to retrieve and
interpret crucial health insights. Recent advances in Large Language Models
(LLMs) offer a solution, enabling semantic question answering (QA) over medical
data, allowing users to interact with their health records more effectively.
However, ensuring privacy and compliance requires edge and private deployments
of LLMs.
This paper proposes a novel approach to semantic QA over EHRs by first
identifying the most relevant FHIR resources for a user query (Task1) and
subsequently answering the query based on these resources (Task2). We explore
the performance of privately hosted, fine-tuned LLMs, evaluating them against
benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that
fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by
0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we
examine advanced aspects of LLM usage, including sequential fine-tuning, model
self-evaluation (narcissistic evaluation), and the impact of training data size
on performance. The models and datasets are available here:
https://huggingface.co/genloopSummary
AI-Generated Summary