ChatPaper.aiChatPaper

Ampliamento dell'Apprendimento per Rinforzo con Ricompense Verificabili in Diversi Domini

Expanding RL with Verifiable Rewards Across Diverse Domains

March 31, 2025
Autori: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI

Abstract

L'apprendimento per rinforzo (RL) con ricompense verificabili (RLVR) ha mostrato risultati promettenti in compiti di ragionamento matematico e di codifica dove sono disponibili risposte di riferimento ben strutturate. Tuttavia, la sua applicabilità a domini più ampi rimane poco esplorata. In questo lavoro, studiamo l'estensione di RLVR a domini più diversificati come medicina, chimica, psicologia ed economia. Osserviamo un elevato accordo nei giudizi binari tra diversi modelli linguistici di grandi dimensioni (LLM) quando esistono risposte di riferimento oggettive, il che mette in discussione la necessità di annotazioni su larga scala per addestrare modelli di ricompensa specifici per dominio. Per affrontare i limiti delle ricompense binarie quando si gestiscono risposte di riferimento non strutturate, incorporiamo ulteriormente un punteggio soft basato su modello in RLVR per migliorarne la flessibilità. I nostri esperimenti mostrano che un modello generativo di ricompensa distillato può servire come verificatore efficace tra domini, fornendo segnali di ricompensa affidabili per RL senza richiedere annotazioni specifiche per dominio. Ottimizzando un modello base da 7B utilizzando vari algoritmi di RL rispetto al nostro modello di ricompensa, otteniamo politiche che superano di gran lunga i migliori LLM open-source allineati come Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, in diversi domini in contesti di risposte libere. Ciò rafforza anche la robustezza e la scalabilità di RLVR, evidenziandone il potenziale per applicazioni nel mondo reale con etichette rumorose o deboli.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR's robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.

Summary

AI-Generated Summary

PDF192April 1, 2025