OpenRFT: Adattamento del Modello di Fondazione del Ragionamento per Compiti Specifici di Dominio con Raffinamento tramite Rinforzo

OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

December 22, 2024
Autori: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI

Abstract

La recente introduzione da parte di OpenAI del Reinforcement Fine-Tuning (RFT) mette in mostra il potenziale del modello di fondazione del ragionamento e offre un nuovo paradigma per il fine-tuning al di là della semplice imitazione di modelli. Questo rapporto tecnico presenta OpenRFT, il nostro tentativo di ottimizzare modelli di ragionamento generalisti per compiti specifici di dominio nelle stesse impostazioni di RFT. OpenRFT affronta due sfide chiave legate alla mancanza di dati sul processo di ragionamento e alla limitata quantità di campioni di addestramento, sfruttando i campioni specifici del dominio in tre modi: l'aumento delle domande, la sintesi dei dati del processo di ragionamento e l'ICL a pochi colpi. La valutazione è stata condotta su SciKnowEval, dove OpenRFT raggiunge notevoli miglioramenti delle prestazioni con soli 100 campioni specifici del dominio per ogni compito. Ulteriori risultati sperimentali saranno aggiornati continuamente nelle versioni successive. I codici sorgente, i set di dati e i modelli sono resi pubblici su: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the potential of reasoning foundation model and offers a new paradigm for fine-tuning beyond simple pattern imitation. This technical report presents OpenRFT, our attempt to fine-tune generalist reasoning models for domain-specific tasks under the same settings as RFT. OpenRFT addresses two key challenges of lacking reasoning step data and the limited quantity of training samples, by leveraging the domain-specific samples in three ways: question augmentation, synthesizing reasoning-process data, and few-shot ICL. The evaluation is conducted on SciKnowEval, where OpenRFT achieves notable performance gains with only 100 domain-specific samples for each task. More experimental results will be updated continuously in later versions. Source codes, datasets, and models are disclosed at: https://github.com/ADaM-BJTU/OpenRFT

Summary

AI-Generated Summary

PDF92December 24, 2024