Van Medprompt tot o1: Verkenning van Run-Time Strategieën voor Medische Uitdagingen en Verder
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
November 6, 2024
Auteurs: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI
Samenvatting
Run-time stuurstrategieën zoals Medprompt zijn waardevol voor het begeleiden van grote taalmodellen (LLM's) naar topprestaties op uitdagende taken. Medprompt toont aan dat een algemeen LLM gericht kan worden om state-of-the-art prestaties te leveren op gespecialiseerde domeinen zoals geneeskunde door een prompt te gebruiken om een run-time strategie te activeren met redeneren in ketens en ensembling. Het o1-preview model van OpenAI vertegenwoordigt een nieuw paradigma, waarbij een model is ontworpen om run-time redeneren uit te voeren voordat het definitieve antwoorden genereert. We streven ernaar het gedrag van o1-preview te begrijpen op een divers scala van medische uitdaging problemen. Voortbouwend op de Medprompt studie met GPT-4, evalueren we systematisch het o1-preview model over verschillende medische benchmarks. Opmerkelijk is dat zelfs zonder prompting technieken, o1-preview grotendeels beter presteert dan de GPT-4 serie met Medprompt. We bestuderen verder systematisch de effectiviteit van klassieke prompt engineering strategieën, zoals vertegenwoordigd door Medprompt, binnen het nieuwe paradigma van redenerende modellen. We hebben vastgesteld dat few-shot prompting de prestaties van o1 belemmert, wat suggereert dat in-context leren mogelijk niet langer een effectieve stuurstrategie is voor redenerende modellen. Hoewel ensembling haalbaar blijft, is het resource-intensief en vereist het zorgvuldige optimalisatie van kosten en prestaties. Onze kosten- en nauwkeurigheidsanalyse over run-time strategieën onthult een Pareto-frontier, waarbij GPT-4o een betaalbaardere optie vertegenwoordigt en o1-preview state-of-the-art prestaties behaalt tegen een hogere kostprijs. Hoewel o1-preview top prestaties biedt, behoudt GPT-4o met stuurstrategieën zoals Medprompt waarde in specifieke contexten. Bovendien merken we op dat het o1-preview model bij veel bestaande medische benchmarks bijna verzadigd is, wat benadrukt dat er behoefte is aan nieuwe, uitdagende benchmarks. We sluiten af met overwegingen over algemene richtingen voor inferentie-tijd berekeningen met LLM's.
English
Run-time steering strategies like Medprompt are valuable for guiding large
language models (LLMs) to top performance on challenging tasks. Medprompt
demonstrates that a general LLM can be focused to deliver state-of-the-art
performance on specialized domains like medicine by using a prompt to elicit a
run-time strategy involving chain of thought reasoning and ensembling. OpenAI's
o1-preview model represents a new paradigm, where a model is designed to do
run-time reasoning before generating final responses. We seek to understand the
behavior of o1-preview on a diverse set of medical challenge problem
benchmarks. Following on the Medprompt study with GPT-4, we systematically
evaluate the o1-preview model across various medical benchmarks. Notably, even
without prompting techniques, o1-preview largely outperforms the GPT-4 series
with Medprompt. We further systematically study the efficacy of classic prompt
engineering strategies, as represented by Medprompt, within the new paradigm of
reasoning models. We found that few-shot prompting hinders o1's performance,
suggesting that in-context learning may no longer be an effective steering
approach for reasoning-native models. While ensembling remains viable, it is
resource-intensive and requires careful cost-performance optimization. Our cost
and accuracy analysis across run-time strategies reveals a Pareto frontier,
with GPT-4o representing a more affordable option and o1-preview achieving
state-of-the-art performance at higher cost. Although o1-preview offers top
performance, GPT-4o with steering strategies like Medprompt retains value in
specific contexts. Moreover, we note that the o1-preview model has reached
near-saturation on many existing medical benchmarks, underscoring the need for
new, challenging benchmarks. We close with reflections on general directions
for inference-time computation with LLMs.Summary
AI-Generated Summary