OpenRFT: Adaptação do Modelo de Fundação de Raciocínio para Tarefas Específicas de Domínio com Ajuste Fino por Reforço
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Autores: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Resumo
A recente introdução do Refinamento por Reforço (RFT) pela OpenAI destaca o potencial do modelo de fundamentação de raciocínio e oferece um novo paradigma para o refinamento além da simples imitação de padrões. Este relatório técnico apresenta o OpenRFT, nossa tentativa de refinar modelos de raciocínio generalistas para tarefas específicas de domínio sob as mesmas configurações do RFT. O OpenRFT aborda dois desafios-chave de falta de dados de etapas de raciocínio e a quantidade limitada de amostras de treinamento, aproveitando as amostras específicas do domínio de três maneiras: aumento de perguntas, síntese de dados de processo de raciocínio e ICL de poucas amostras. A avaliação é realizada no SciKnowEval, onde o OpenRFT alcança ganhos de desempenho notáveis com apenas 100 amostras específicas de domínio para cada tarefa. Mais resultados experimentais serão atualizados continuamente em versões posteriores. Os códigos-fonte, conjuntos de dados e modelos estão disponíveis em: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary