De Medprompt à o1 : Exploration des Stratégies d'Exécution pour les Problèmes de Défis Médicaux et Au-delà

Résumé

Les stratégies de pilotage en temps d'exécution telles que Medprompt sont précieuses pour guider les grands modèles de langage (LLM) vers des performances optimales sur des tâches complexes. Medprompt démontre qu'un LLM général peut être ciblé pour offrir des performances de pointe dans des domaines spécialisés tels que la médecine en utilisant une invitation pour susciter une stratégie en temps d'exécution impliquant un raisonnement en chaîne et un ensemble de pensées. Le modèle o1-preview d'OpenAI représente un nouveau paradigme, où un modèle est conçu pour effectuer un raisonnement en temps d'exécution avant de générer des réponses finales. Nous cherchons à comprendre le comportement de o1-preview sur un ensemble diversifié de défis médicaux. En suivant l'étude Medprompt avec GPT-4, nous évaluons systématiquement le modèle o1-preview sur divers benchmarks de problèmes médicaux. Notamment, même sans techniques d'invitation, o1-preview surpasse largement la série GPT-4 avec Medprompt. Nous étudions ensuite systématiquement l'efficacité des stratégies classiques d'ingénierie d'invitation, telles que représentées par Medprompt, dans le nouveau paradigme des modèles de raisonnement. Nous avons constaté que l'invitation en quelques exemples nuit aux performances de o1, suggérant que l'apprentissage en contexte pourrait ne plus être une approche efficace pour les modèles natifs de raisonnement. Bien que l'ensemble reste viable, il est gourmand en ressources et nécessite une optimisation minutieuse des coûts et des performances. Notre analyse des coûts et de la précision des stratégies en temps d'exécution révèle une frontière de Pareto, avec GPT-4o représentant une option plus abordable et o1-preview atteignant des performances de pointe à un coût plus élevé. Bien que o1-preview offre des performances optimales, GPT-4o avec des stratégies de pilotage comme Medprompt conserve sa valeur dans des contextes spécifiques. De plus, nous notons que le modèle o1-preview a atteint une saturation sur de nombreux benchmarks médicaux existants, soulignant le besoin de nouveaux benchmarks stimulants. Nous concluons en réfléchissant aux orientations générales pour le calcul en temps d'inférence avec les LLM.

English

Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.

De Medprompt à o1 : Exploration des Stratégies d'Exécution pour les Problèmes de Défis Médicaux et Au-delà

From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Résumé

Summary

Support