Von Medprompt zu o1: Erkundung von Laufzeitstrategien für medizinische Herausforderungsprobleme und darüber hinaus
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
November 6, 2024
Autoren: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI
Zusammenfassung
Laufzeitlenkungsstrategien wie Medprompt sind wertvoll, um große Sprachmodelle (LLMs) bei anspruchsvollen Aufgaben zu führen. Medprompt zeigt, dass ein allgemeines LLM durch die Verwendung eines Prompts für eine Laufzeitstrategie mit Denkprozess-Verkettung und Ensembling auf spezialisierte Bereiche wie die Medizin fokussiert werden kann, um Spitzenleistungen zu erzielen. Das o1-preview-Modell von OpenAI repräsentiert ein neues Paradigma, bei dem ein Modell so konzipiert ist, dass es vor der Generierung endgültiger Antworten eine Laufzeitbegründung durchführt. Wir möchten das Verhalten von o1-preview anhand einer vielfältigen Auswahl medizinischer Herausforderungsprobleme verstehen. In Anlehnung an die Medprompt-Studie mit GPT-4 evaluieren wir systematisch das o1-preview-Modell anhand verschiedener medizinischer Benchmarks. Bemerkenswerterweise übertrifft o1-preview selbst ohne Prompting-Techniken größtenteils die GPT-4-Serie mit Medprompt. Wir untersuchen systematisch die Wirksamkeit klassischer Prompt-Engineering-Strategien, wie sie von Medprompt repräsentiert werden, im neuen Paradigma von Begründungsmodellen. Wir stellten fest, dass Few-Shot-Prompting die Leistung von o1 beeinträchtigt, was darauf hindeutet, dass das Lernen im Kontext möglicherweise kein effektiver Lenkungsansatz mehr für Begründungsmodelle ist. Obwohl Ensembling machbar bleibt, ist es ressourcenintensiv und erfordert eine sorgfältige Kosten-Leistungs-Optimierung. Unsere Kosten- und Genauigkeitsanalyse verschiedener Laufzeitstrategien zeigt eine Pareto-Front, wobei GPT-4o eine erschwinglichere Option darstellt und o1-preview Spitzenleistungen zu höheren Kosten erzielt. Obwohl o1-preview Spitzenleistungen bietet, behält GPT-4o mit Lenkungsstrategien wie Medprompt in spezifischen Kontexten einen Wert. Darüber hinaus stellen wir fest, dass das o1-preview-Modell auf vielen bestehenden medizinischen Benchmarks nahezu gesättigt ist, was die Notwendigkeit neuer, anspruchsvoller Benchmarks unterstreicht. Abschließend reflektieren wir über allgemeine Richtungen für die Berechnung zur Inferenzzeit mit LLMs.
English
Run-time steering strategies like Medprompt are valuable for guiding large
language models (LLMs) to top performance on challenging tasks. Medprompt
demonstrates that a general LLM can be focused to deliver state-of-the-art
performance on specialized domains like medicine by using a prompt to elicit a
run-time strategy involving chain of thought reasoning and ensembling. OpenAI's
o1-preview model represents a new paradigm, where a model is designed to do
run-time reasoning before generating final responses. We seek to understand the
behavior of o1-preview on a diverse set of medical challenge problem
benchmarks. Following on the Medprompt study with GPT-4, we systematically
evaluate the o1-preview model across various medical benchmarks. Notably, even
without prompting techniques, o1-preview largely outperforms the GPT-4 series
with Medprompt. We further systematically study the efficacy of classic prompt
engineering strategies, as represented by Medprompt, within the new paradigm of
reasoning models. We found that few-shot prompting hinders o1's performance,
suggesting that in-context learning may no longer be an effective steering
approach for reasoning-native models. While ensembling remains viable, it is
resource-intensive and requires careful cost-performance optimization. Our cost
and accuracy analysis across run-time strategies reveals a Pareto frontier,
with GPT-4o representing a more affordable option and o1-preview achieving
state-of-the-art performance at higher cost. Although o1-preview offers top
performance, GPT-4o with steering strategies like Medprompt retains value in
specific contexts. Moreover, we note that the o1-preview model has reached
near-saturation on many existing medical benchmarks, underscoring the need for
new, challenging benchmarks. We close with reflections on general directions
for inference-time computation with LLMs.Summary
AI-Generated Summary