Sprachmodelle und ein Anwendungsfall für eine Zweitmeinung: Der Taschenprofi
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Autoren: David Noever
cs.AI
Zusammenfassung
Diese Forschung untersucht die Rolle von Large Language Models (LLMs) als formale Zweitmeinungswerkzeuge in professionellen Entscheidungsprozessen, wobei der Fokus insbesondere auf komplexen medizinischen Fällen liegt, bei denen selbst erfahrene Ärzte um Rat von Kollegen ersuchen. Die Arbeit analysierte 183 herausfordernde medizinische Fälle von Medscape über einen Zeitraum von 20 Monaten und testete die Leistung mehrerer LLMs im Vergleich zu den Antworten von Ärzten, die über Crowdsourcing gesammelt wurden. Eine wichtige Erkenntnis war die hohe Gesamtpunktzahl, die mit den neuesten grundlegenden Modellen erzielt werden konnte (>80% Genauigkeit im Vergleich zur Konsensmeinung), was die meisten von Menschen gemeldeten Metriken zu denselben klinischen Fällen (450 Seiten mit Patientenprofilen, Testergebnissen) übertrifft. Die Studie bewertet die Leistungsunterschiede der LLMs zwischen einfachen Fällen (>81% Genauigkeit) und komplexen Szenarien (43% Genauigkeit), insbesondere in Fällen, die unter menschlichen Ärzten zu erheblichen Debatten führen. Die Forschung zeigt, dass LLMs möglicherweise wertvoll sind als Ersteller umfassender differenzialdiagnostischer Ansätze anstelle von primären diagnostischen Werkzeugen, was potenziell dazu beitragen könnte, kognitive Verzerrungen in klinischen Entscheidungsprozessen zu bekämpfen, kognitive Belastungen zu reduzieren und somit einige Quellen für medizinische Fehler zu beseitigen. Die Einbeziehung eines zweiten vergleichenden rechtlichen Datensatzes (Supreme Court-Fälle, N=21) liefert zusätzlichen empirischen Kontext für die Verwendung von KI zur Förderung von Zweitmeinungen, obwohl sich herausstellte, dass diese rechtlichen Herausforderungen für LLMs deutlich einfacher zu analysieren waren. Neben den ursprünglichen Beiträgen empirischer Beweise für die Genauigkeit von LLMs aggregierte die Forschung einen neuen Benchmark, an dem andere die Zuverlässigkeit hoch umstrittener Fragen und Antworten zwischen LLMs und widersprechenden menschlichen Praktikern bewerten können. Diese Ergebnisse legen nahe, dass der optimale Einsatz von LLMs in professionellen Umgebungen sich erheblich von den derzeitigen Ansätzen unterscheiden könnte, die die Automatisierung routinemäßiger Aufgaben betonen.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary