Modelli Linguistici e Caso d'Uso di Seconda Opinione: Il Professionista Tascabile
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Autori: David Noever
cs.AI
Abstract
Questa ricerca testa il ruolo dei Grandi Modelli Linguistici (LLM) come strumenti formali di seconda opinione nel processo decisionale professionale, concentrandosi in particolare su casi medici complessi in cui persino medici esperti cercano consulenza tra pari. Il lavoro ha analizzato 183 casi medici sfidanti da Medscape in un periodo di 20 mesi, testando le prestazioni di vari LLM rispetto alle risposte dei medici raccolte dalla folla. Una scoperta chiave è stata il punteggio complessivo elevato possibile nei più recenti modelli fondamentali (>80% di accuratezza rispetto all'opinione di consenso), che supera la maggior parte delle metriche umane riportate sugli stessi casi clinici (450 pagine di profili pazienti, risultati dei test). Lo studio valuta la disparità delle prestazioni dei LLM tra casi semplici (>81% di accuratezza) e scenari complessi (43% di accuratezza), in particolare in quei casi che generano un dibattito sostanziale tra i medici umani. La ricerca dimostra che i LLM potrebbero essere preziosi come generatori di diagnosi differenziali complete piuttosto che come strumenti diagnostici primari, potenzialmente contribuendo a contrastare i bias cognitivi nel processo decisionale clinico, ridurre i carichi cognitivi e quindi eliminare alcune fonti di errori medici. L'inclusione di un secondo dataset legale comparativo (casi della Corte Suprema, N=21) fornisce un contesto empirico aggiuntivo sull'uso dell'IA per favorire seconde opinioni, sebbene queste sfide legali si siano rivelate notevolmente più facili per i LLM da analizzare. Oltre ai contributi originali di prove empiriche sull'accuratezza dei LLM, la ricerca ha aggregato un nuovo punto di riferimento per consentire ad altri di valutare l'affidabilità di domande e risposte altamente contestate tra sia i LLM che i professionisti umani in disaccordo. Questi risultati suggeriscono che il dispiegamento ottimale dei LLM in contesti professionali potrebbe differire sostanzialmente dagli approcci attuali che enfatizzano l'automazione delle attività di routine.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary