OpenRFT: 강화 Feine-Tuning을 활용한 도메인별 작업을 위한 추론 기반 모델의 적응
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
저자: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
초록
OpenAI의 최근 Reinforcement Fine-Tuning (RFT) 소개는 추론 기반 모델의 잠재력을 보여주며 단순한 패턴 모방을 넘어 섬세한 조정을 위한 새로운 패러다임을 제시합니다. 본 기술 보고서는 OpenRFT를 소개하며, RFT와 동일한 설정 하에서 도메인별 작업을 위해 일반적인 추론 모델을 섬세하게 조정하려는 우리의 시도를 제시합니다. OpenRFT는 추론 단계 데이터 부족과 교육 샘플의 한정된 양이라는 두 가지 주요 도전에 대응하기 위해 도메인별 샘플을 활용하는 세 가지 방법으로 접근합니다: 질문 증강, 추론 과정 데이터 합성, 그리고 소수의 샷 ICL. 평가는 SciKnowEval에서 수행되었으며, OpenRFT는 각 작업에 대해 단 100개의 도메인별 샘플만 사용하여 주목할만한 성능 향상을 달성했습니다. 추가 실험 결과는 향후 버전에서 지속적으로 업데이트될 예정입니다. 소스 코드, 데이터셋, 그리고 모델은 다음 링크에서 확인할 수 있습니다: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFT