Viaggio di replicazione O1 - Parte 2: Superare O1-preview attraverso Semplice Distillazione, Grande Progresso o Amara Lezione?

Abstract

Questo articolo presenta un'esaminazione critica degli approcci attuali per replicare le capacità del modello O1 di OpenAI, con particolare attenzione sull'ampio ma spesso non dichiarato utilizzo delle tecniche di distillazione della conoscenza. Mentre il nostro lavoro precedente ha esplorato il percorso tecnico fondamentale per replicare O1, questo studio rivela come una semplice distillazione dall'API di O1, combinata con il fine-tuning supervisionato, possa raggiungere prestazioni superiori su compiti complessi di ragionamento matematico. Attraverso estesi esperimenti, mostriamo che un modello di base sintonizzato su semplicemente decine di migliaia di campioni distillati da O1 supera le prestazioni di O1-preview nell'American Invitational Mathematics Examination (AIME) con una complessità tecnica minima. Inoltre, la nostra indagine si estende oltre il ragionamento matematico per esplorare le capacità di generalizzazione dei modelli distillati da O1 su diversi compiti: allucinazione, sicurezza e domande aperte di dominio generale. In particolare, nonostante l'allenamento solo su dati di risoluzione di problemi matematici, i nostri modelli hanno dimostrato una forte capacità di generalizzazione su compiti di domande aperte e sono diventati significativamente meno suscettibili alla lusinga dopo il fine-tuning. Rendiamo deliberatamente pubblica questa scoperta per promuovere la trasparenza nella ricerca sull'IA e per sfidare l'attuale tendenza delle affermazioni tecniche oscure nel settore. Il nostro lavoro include: (1) Una dettagliata esposizione tecnica del processo di distillazione e della sua efficacia, (2) Un ampio framework di benchmark per valutare e categorizzare i tentativi di replicazione di O1 in base alla trasparenza tecnica e alla riproducibilità, (3) Una discussione critica dei limiti e dei potenziali rischi di fare troppo affidamento sugli approcci di distillazione, la nostra analisi culmina in una lezione amara cruciale: mentre è importante perseguire sistemi di intelligenza artificiale più capaci, lo sviluppo di ricercatori radicati nel pensiero dei primi principi è fondamentale.

English

This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.

Viaggio di replicazione O1 - Parte 2: Superare O1-preview attraverso Semplice Distillazione, Grande Progresso o Amara Lezione?

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Abstract

Summary

Support