Modèles de langage et cas d'utilisation d'une deuxième opinion : Le Professionnel de Poche
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Auteurs: David Noever
cs.AI
Résumé
Cette recherche teste le rôle des Grands Modèles de Langage (GML) en tant qu'outils formels de deuxième avis dans la prise de décision professionnelle, en se concentrant particulièrement sur des cas médicaux complexes où même les médecins expérimentés recherchent des consultations entre pairs. Le travail a analysé 183 cas médicaux difficiles provenant de Medscape sur une période de 20 mois, testant les performances de plusieurs GML par rapport aux réponses des médecins obtenues de manière collaborative. Une découverte clé a été le score global élevé possible dans les derniers modèles fondamentaux (>80% de précision par rapport à l'opinion consensuelle), dépassant la plupart des mesures humaines rapportées sur les mêmes cas cliniques (450 pages de profils de patients, résultats de tests). L'étude évalue l'écart de performance des GML entre les cas simples (>81% de précision) et les scénarios complexes (43% de précision), en particulier dans ces cas générant un débat important parmi les médecins humains. La recherche démontre que les GML pourraient être précieux en tant que générateurs de diagnostics différentiels complets plutôt qu'en tant qu'outils diagnostiques primaires, aidant potentiellement à contrer les biais cognitifs dans la prise de décision clinique, à réduire les charges cognitives et ainsi à éliminer certaines sources d'erreurs médicales. L'inclusion d'un deuxième ensemble de données juridiques comparatives (affaires de la Cour Suprême, N=21) fournit un contexte empirique supplémentaire à l'utilisation de l'IA pour favoriser les deuxièmes avis, bien que ces défis juridiques se soient avérés considérablement plus faciles à analyser pour les GML. En plus des contributions originales de preuves empiriques pour la précision des GML, la recherche a agrégé un nouvel étalon pour que d'autres évaluent la fiabilité des questions et réponses très contestées entre les GML et les praticiens humains en désaccord. Ces résultats suggèrent que le déploiement optimal des GML dans des environnements professionnels peut différer considérablement des approches actuelles qui mettent l'accent sur l'automatisation des tâches routinières.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary