Viaggio di replicazione O1 - Parte 2: Superare O1-preview attraverso Semplice Distillazione, Grande Progresso o Amara Lezione?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?
November 25, 2024
Autori: Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
cs.AI
Abstract
Questo articolo presenta un'esaminazione critica degli approcci attuali per replicare le capacità del modello O1 di OpenAI, con particolare attenzione sull'ampio ma spesso non dichiarato utilizzo delle tecniche di distillazione della conoscenza. Mentre il nostro lavoro precedente ha esplorato il percorso tecnico fondamentale per replicare O1, questo studio rivela come una semplice distillazione dall'API di O1, combinata con il fine-tuning supervisionato, possa raggiungere prestazioni superiori su compiti complessi di ragionamento matematico. Attraverso estesi esperimenti, mostriamo che un modello di base sintonizzato su semplicemente decine di migliaia di campioni distillati da O1 supera le prestazioni di O1-preview nell'American Invitational Mathematics Examination (AIME) con una complessità tecnica minima. Inoltre, la nostra indagine si estende oltre il ragionamento matematico per esplorare le capacità di generalizzazione dei modelli distillati da O1 su diversi compiti: allucinazione, sicurezza e domande aperte di dominio generale. In particolare, nonostante l'allenamento solo su dati di risoluzione di problemi matematici, i nostri modelli hanno dimostrato una forte capacità di generalizzazione su compiti di domande aperte e sono diventati significativamente meno suscettibili alla lusinga dopo il fine-tuning. Rendiamo deliberatamente pubblica questa scoperta per promuovere la trasparenza nella ricerca sull'IA e per sfidare l'attuale tendenza delle affermazioni tecniche oscure nel settore. Il nostro lavoro include: (1) Una dettagliata esposizione tecnica del processo di distillazione e della sua efficacia, (2) Un ampio framework di benchmark per valutare e categorizzare i tentativi di replicazione di O1 in base alla trasparenza tecnica e alla riproducibilità, (3) Una discussione critica dei limiti e dei potenziali rischi di fare troppo affidamento sugli approcci di distillazione, la nostra analisi culmina in una lezione amara cruciale: mentre è importante perseguire sistemi di intelligenza artificiale più capaci, lo sviluppo di ricercatori radicati nel pensiero dei primi principi è fondamentale.
English
This paper presents a critical examination of current approaches to
replicating OpenAI's O1 model capabilities, with particular focus on the
widespread but often undisclosed use of knowledge distillation techniques.
While our previous work explored the fundamental technical path to O1
replication, this study reveals how simple distillation from O1's API, combined
with supervised fine-tuning, can achieve superior performance on complex
mathematical reasoning tasks. Through extensive experiments, we show that a
base model fine-tuned on simply tens of thousands of samples O1-distilled
long-thought chains outperforms O1-preview on the American Invitational
Mathematics Examination (AIME) with minimal technical complexity. Moreover, our
investigation extends beyond mathematical reasoning to explore the
generalization capabilities of O1-distilled models across diverse tasks:
hallucination, safety and open-domain QA. Notably, despite training only on
mathematical problem-solving data, our models demonstrated strong
generalization to open-ended QA tasks and became significantly less susceptible
to sycophancy after fine-tuning. We deliberately make this finding public to
promote transparency in AI research and to challenge the current trend of
obscured technical claims in the field. Our work includes: (1) A detailed
technical exposition of the distillation process and its effectiveness, (2) A
comprehensive benchmark framework for evaluating and categorizing O1
replication attempts based on their technical transparency and reproducibility,
(3) A critical discussion of the limitations and potential risks of
over-relying on distillation approaches, our analysis culminates in a crucial
bitter lesson: while the pursuit of more capable AI systems is important, the
development of researchers grounded in first-principles thinking is paramount.Summary
AI-Generated Summary