OpenRFT: 強化微調整を用いた特定ドメインタスク向けのReasoning Foundation Modelの適応
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
著者: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
要旨
OpenAIの最近のReinforcement Fine-Tuning(RFT)の導入は、推論基盤モデルの潜在能力を示し、単純なパターン模倣を超えたファインチューニングの新しいパラダイムを提供しています。この技術レポートでは、OpenRFTを紹介し、RFTと同じ設定で汎用推論モデルをドメイン固有のタスクにファインチューニングする試みを紹介します。OpenRFTは、推論ステップデータの不足とトレーニングサンプルの数量の制約という2つの主要な課題に対処するために、ドメイン固有のサンプルを3つの方法で活用します:質問の拡張、推論プロセスデータの合成、およびフューショットICL。評価はSciKnowEvalで行われ、OpenRFTは各タスクにつきわずか100のドメイン固有サンプルで顕著な性能向上を達成しています。より多くの実験結果は後続バージョンで継続的に更新されます。ソースコード、データセット、モデルは以下で公開されています:https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary