Ampliamento dell'Apprendimento per Rinforzo con Ricompense Verificabili in Diversi Domini
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Autori: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Abstract
L'apprendimento per rinforzo (RL) con ricompense verificabili (RLVR) ha mostrato risultati promettenti in compiti di ragionamento matematico e di codifica dove sono disponibili risposte di riferimento ben strutturate. Tuttavia, la sua applicabilità a domini più ampi rimane poco esplorata. In questo lavoro, studiamo l'estensione di RLVR a domini più diversificati come medicina, chimica, psicologia ed economia. Osserviamo un elevato accordo nei giudizi binari tra diversi modelli linguistici di grandi dimensioni (LLM) quando esistono risposte di riferimento oggettive, il che mette in discussione la necessità di annotazioni su larga scala per addestrare modelli di ricompensa specifici per dominio. Per affrontare i limiti delle ricompense binarie quando si gestiscono risposte di riferimento non strutturate, incorporiamo ulteriormente un punteggio soft basato su modello in RLVR per migliorarne la flessibilità. I nostri esperimenti mostrano che un modello generativo di ricompensa distillato può servire come verificatore efficace tra domini, fornendo segnali di ricompensa affidabili per RL senza richiedere annotazioni specifiche per dominio. Ottimizzando un modello base da 7B utilizzando vari algoritmi di RL rispetto al nostro modello di ricompensa, otteniamo politiche che superano di gran lunga i migliori LLM open-source allineati come Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, in diversi domini in contesti di risposte libere. Ciò rafforza anche la robustezza e la scalabilità di RLVR, evidenziandone il potenziale per applicazioni nel mondo reale con etichette rumorose o deboli.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.Summary
AI-Generated Summary