De Medprompt à o1 : Exploration des Stratégies d'Exécution pour les Problèmes de Défis Médicaux et Au-delà
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
November 6, 2024
Auteurs: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI
Résumé
Les stratégies de pilotage en temps d'exécution telles que Medprompt sont précieuses pour guider les grands modèles de langage (LLM) vers des performances optimales sur des tâches complexes. Medprompt démontre qu'un LLM général peut être ciblé pour offrir des performances de pointe dans des domaines spécialisés tels que la médecine en utilisant une invitation pour susciter une stratégie en temps d'exécution impliquant un raisonnement en chaîne et un ensemble de pensées. Le modèle o1-preview d'OpenAI représente un nouveau paradigme, où un modèle est conçu pour effectuer un raisonnement en temps d'exécution avant de générer des réponses finales. Nous cherchons à comprendre le comportement de o1-preview sur un ensemble diversifié de défis médicaux. En suivant l'étude Medprompt avec GPT-4, nous évaluons systématiquement le modèle o1-preview sur divers benchmarks de problèmes médicaux. Notamment, même sans techniques d'invitation, o1-preview surpasse largement la série GPT-4 avec Medprompt. Nous étudions ensuite systématiquement l'efficacité des stratégies classiques d'ingénierie d'invitation, telles que représentées par Medprompt, dans le nouveau paradigme des modèles de raisonnement. Nous avons constaté que l'invitation en quelques exemples nuit aux performances de o1, suggérant que l'apprentissage en contexte pourrait ne plus être une approche efficace pour les modèles natifs de raisonnement. Bien que l'ensemble reste viable, il est gourmand en ressources et nécessite une optimisation minutieuse des coûts et des performances. Notre analyse des coûts et de la précision des stratégies en temps d'exécution révèle une frontière de Pareto, avec GPT-4o représentant une option plus abordable et o1-preview atteignant des performances de pointe à un coût plus élevé. Bien que o1-preview offre des performances optimales, GPT-4o avec des stratégies de pilotage comme Medprompt conserve sa valeur dans des contextes spécifiques. De plus, nous notons que le modèle o1-preview a atteint une saturation sur de nombreux benchmarks médicaux existants, soulignant le besoin de nouveaux benchmarks stimulants. Nous concluons en réfléchissant aux orientations générales pour le calcul en temps d'inférence avec les LLM.
English
Run-time steering strategies like Medprompt are valuable for guiding large
language models (LLMs) to top performance on challenging tasks. Medprompt
demonstrates that a general LLM can be focused to deliver state-of-the-art
performance on specialized domains like medicine by using a prompt to elicit a
run-time strategy involving chain of thought reasoning and ensembling. OpenAI's
o1-preview model represents a new paradigm, where a model is designed to do
run-time reasoning before generating final responses. We seek to understand the
behavior of o1-preview on a diverse set of medical challenge problem
benchmarks. Following on the Medprompt study with GPT-4, we systematically
evaluate the o1-preview model across various medical benchmarks. Notably, even
without prompting techniques, o1-preview largely outperforms the GPT-4 series
with Medprompt. We further systematically study the efficacy of classic prompt
engineering strategies, as represented by Medprompt, within the new paradigm of
reasoning models. We found that few-shot prompting hinders o1's performance,
suggesting that in-context learning may no longer be an effective steering
approach for reasoning-native models. While ensembling remains viable, it is
resource-intensive and requires careful cost-performance optimization. Our cost
and accuracy analysis across run-time strategies reveals a Pareto frontier,
with GPT-4o representing a more affordable option and o1-preview achieving
state-of-the-art performance at higher cost. Although o1-preview offers top
performance, GPT-4o with steering strategies like Medprompt retains value in
specific contexts. Moreover, we note that the o1-preview model has reached
near-saturation on many existing medical benchmarks, underscoring the need for
new, challenging benchmarks. We close with reflections on general directions
for inference-time computation with LLMs.Summary
AI-Generated Summary