I modelli linguistici di grandi dimensioni in ambito medico sono facilmente distraibili.
Medical large language models are easily distracted
April 1, 2025
Autori: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno il potenziale di trasformare la medicina, ma gli scenari clinici reali contengono informazioni estranee che possono comprometterne le prestazioni. L'ascesa di tecnologie assistive come la dettatura ambientale, che genera automaticamente bozze di note dagli incontri con i pazienti in tempo reale, potrebbe introdurre ulteriore rumore, rendendo cruciale valutare la capacità degli LLM di filtrare i dati rilevanti. Per indagare questo aspetto, abbiamo sviluppato MedDistractQA, un benchmark che utilizza domande in stile USMLE integrate con distrazioni simulate del mondo reale. I nostri risultati mostrano che affermazioni distraenti (parole polisemiche con significati clinici utilizzate in un contesto non clinico o riferimenti a condizioni di salute non correlate) possono ridurre l'accuratezza degli LLM fino al 17,9%. Soluzioni comunemente proposte per migliorare le prestazioni del modello, come la generazione aumentata dal recupero (RAG) e il fine-tuning medico, non hanno modificato questo effetto e, in alcuni casi, hanno introdotto i propri fattori confondenti, peggiorando ulteriormente le prestazioni. I nostri risultati suggeriscono che gli LLM mancano nativamente dei meccanismi logici necessari per distinguere le informazioni cliniche rilevanti da quelle irrilevanti, ponendo sfide per le applicazioni nel mondo reale. MedDistractQA e i nostri risultati evidenziano la necessità di strategie di mitigazione robuste per migliorare la resilienza degli LLM alle informazioni estranee.
English
Large language models (LLMs) have the potential to transform medicine, but
real-world clinical scenarios contain extraneous information that can hinder
performance. The rise of assistive technologies like ambient dictation, which
automatically generates draft notes from live patient encounters, has the
potential to introduce additional noise making it crucial to assess the ability
of LLM's to filter relevant data. To investigate this, we developed
MedDistractQA, a benchmark using USMLE-style questions embedded with simulated
real-world distractions. Our findings show that distracting statements
(polysemous words with clinical meanings used in a non-clinical context or
references to unrelated health conditions) can reduce LLM accuracy by up to
17.9%. Commonly proposed solutions to improve model performance such as
retrieval-augmented generation (RAG) and medical fine-tuning did not change
this effect and in some cases introduced their own confounders and further
degraded performance. Our findings suggest that LLMs natively lack the logical
mechanisms necessary to distinguish relevant from irrelevant clinical
information, posing challenges for real-world applications. MedDistractQA and
our results highlights the need for robust mitigation strategies to enhance LLM
resilience to extraneous information.Summary
AI-Generated Summary