Da Medprompt a o1: Esplorazione delle Strategie in Tempo di Esecuzione per Problemi Sfida Medica e Oltre

From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

November 6, 2024
Autori: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI

Abstract

Strategie di guida in tempo di esecuzione come Medprompt sono preziose per guidare grandi modelli linguistici (LLM) verso prestazioni di alto livello su compiti impegnativi. Medprompt dimostra che un LLM generale può essere focalizzato per ottenere prestazioni all'avanguardia in domini specializzati come la medicina utilizzando un prompt per suscitare una strategia in tempo di esecuzione che coinvolge il ragionamento a catena e l'ensemble. Il modello o1-preview di OpenAI rappresenta un nuovo paradigma, in cui un modello è progettato per eseguire un ragionamento in tempo di esecuzione prima di generare risposte finali. Cerchiamo di comprendere il comportamento di o1-preview su un insieme diversificato di benchmark di sfide mediche. Seguendo lo studio Medprompt con GPT-4, valutiamo sistematicamente il modello o1-preview su vari benchmark medici. In particolare, anche senza tecniche di prompting, o1-preview supera ampiamente la serie GPT-4 con Medprompt. Studiamo inoltre sistematicamente l'efficacia delle classiche strategie di ingegneria dei prompt, rappresentate da Medprompt, all'interno del nuovo paradigma dei modelli di ragionamento. Abbiamo riscontrato che il prompting a pochi esempi ostacola le prestazioni di o1, suggerendo che l'apprendimento in contesto potrebbe non essere più un approccio efficace per i modelli nativi di ragionamento. Sebbene l'ensemble rimanga valido, è intensivo in termini di risorse e richiede un'ottimizzazione attenta dei costi e delle prestazioni. La nostra analisi dei costi e dell'accuratezza tra le strategie in tempo di esecuzione rivela una frontiera di Pareto, con GPT-4o che rappresenta un'opzione più conveniente e o1-preview che raggiunge prestazioni all'avanguardia a un costo più elevato. Anche se o1-preview offre prestazioni di alto livello, GPT-4o con strategie di guida come Medprompt conserva valore in contesti specifici. Inoltre, notiamo che il modello o1-preview ha raggiunto una quasi saturazione su molti benchmark medici esistenti, sottolineando la necessità di nuovi benchmark impegnativi. Concludiamo con riflessioni sulle direzioni generali per il calcolo in tempo di inferenza con LLM.
English
Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.

Summary

AI-Generated Summary

PDF101November 13, 2024