Taalmodellen en een Gebruiksscenario voor een Tweede Mening: De Zakelijke Professional
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Auteurs: David Noever
cs.AI
Samenvatting
Dit onderzoek test de rol van Grote Taalmodellen (LLM's) als formele tweede opinietools in professionele besluitvorming, met name gericht op complexe medische gevallen waar zelfs ervaren artsen om advies van collega's vragen. Het werk analyseerde 183 uitdagende medische gevallen van Medscape over een periode van 20 maanden, waarbij de prestaties van meerdere LLM's werden getest tegenover reacties van artsen die via crowdsourcing werden verkregen. Een belangrijke bevinding was de hoge algehele score die mogelijk is in de nieuwste fundamentele modellen (>80% nauwkeurigheid in vergelijking met de consensusopinie), wat de meeste menselijke metrieken over dezelfde klinische gevallen overtreft (450 pagina's met patiëntprofielen, testresultaten). De studie beoordeelt het prestatieverschil van LLM's tussen eenvoudige gevallen (>81% nauwkeurigheid) en complexe scenario's (43% nauwkeurigheid), met name in die gevallen die aanzienlijk debat onder menselijke artsen genereren. Het onderzoek toont aan dat LLM's waardevol kunnen zijn als generatoren van uitgebreide differentiële diagnoses in plaats van als primaire diagnostische hulpmiddelen, wat mogelijk kan helpen om cognitieve vooroordelen in klinische besluitvorming tegen te gaan, cognitieve belasting te verminderen en zo enkele bronnen van medische fouten weg te nemen. De toevoeging van een tweede vergelijkbare juridische dataset (Hoge Raad zaken, N=21) biedt extra empirische context voor het gebruik van AI om tweede meningen te bevorderen, hoewel deze juridische uitdagingen aanzienlijk makkelijker bleken te zijn voor LLM's om te analyseren. Naast de oorspronkelijke bijdragen van empirisch bewijs voor de nauwkeurigheid van LLM's, heeft het onderzoek een nieuwe benchmark samengesteld waar anderen de betrouwbaarheid van sterk betwiste vraag- en antwoordrelaties tussen zowel LLM's als onenige menselijke beoefenaars kunnen beoordelen. Deze resultaten suggereren dat de optimale inzet van LLM's in professionele omgevingen aanzienlijk kan verschillen van de huidige benaderingen die de automatisering van routinetaken benadrukken.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary