OpenRFT: Adattamento del Modello di Fondazione del Ragionamento per Compiti Specifici di Dominio con Raffinamento tramite Rinforzo
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Autori: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Abstract
La recente introduzione da parte di OpenAI del Reinforcement Fine-Tuning (RFT) mette in mostra il potenziale del modello di fondazione del ragionamento e offre un nuovo paradigma per il fine-tuning al di là della semplice imitazione di modelli. Questo rapporto tecnico presenta OpenRFT, il nostro tentativo di ottimizzare modelli di ragionamento generalisti per compiti specifici di dominio nelle stesse impostazioni di RFT. OpenRFT affronta due sfide chiave legate alla mancanza di dati sul processo di ragionamento e alla limitata quantità di campioni di addestramento, sfruttando i campioni specifici del dominio in tre modi: l'aumento delle domande, la sintesi dei dati del processo di ragionamento e l'ICL a pochi colpi. La valutazione è stata condotta su SciKnowEval, dove OpenRFT raggiunge notevoli miglioramenti delle prestazioni con soli 100 campioni specifici del dominio per ogni compito. Ulteriori risultati sperimentali saranno aggiornati continuamente nelle versioni successive. I codici sorgente, i set di dati e i modelli sono resi pubblici su: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary