DianJin-R1 : Évaluation et amélioration du raisonnement financier dans les grands modèles de langage

Résumé

Le raisonnement efficace reste un défi central pour les grands modèles de langage (LLMs) dans le domaine financier, où les tâches nécessitent souvent des connaissances spécifiques au domaine, des calculs numériques précis et un strict respect des règles de conformité. Nous proposons DianJin-R1, un cadre renforcé en raisonnement conçu pour relever ces défis grâce à une supervision augmentée par le raisonnement et à l'apprentissage par renforcement. Au cœur de notre approche se trouve DianJin-R1-Data, un ensemble de données de haute qualité construit à partir de CFLUE, FinQA et d'un corpus propriétaire de conformité (Chinese Compliance Check, CCC), combinant divers scénarios de raisonnement financier avec des annotations vérifiées. Nos modèles, DianJin-R1-7B et DianJin-R1-32B, sont affinés à partir de Qwen2.5-7B-Instruct et Qwen2.5-32B-Instruct en utilisant un format structuré qui génère à la fois les étapes de raisonnement et les réponses finales. Pour affiner davantage la qualité du raisonnement, nous appliquons l'Optimisation Relative de Politique de Groupe (Group Relative Policy Optimization, GRPO), une méthode d'apprentissage par renforcement qui intègre des signaux de récompense doubles : l'un encourageant les sorties structurées et l'autre récompensant l'exactitude des réponses. Nous évaluons nos modèles sur cinq benchmarks : trois ensembles de données financières (CFLUE, FinQA et CCC) et deux benchmarks de raisonnement général (MATH-500 et GPQA-Diamond). Les résultats expérimentaux montrent que les modèles DianJin-R1 surpassent systématiquement leurs homologues sans raisonnement, en particulier sur les tâches financières complexes. De plus, sur l'ensemble de données CCC du monde réel, nos modèles de raisonnement en un seul appel égalent ou surpassent même les performances des systèmes multi-agents qui nécessitent un coût de calcul significativement plus élevé. Ces résultats démontrent l'efficacité de DianJin-R1 pour améliorer le raisonnement financier grâce à une supervision structurée et un apprentissage aligné sur les récompenses, offrant une solution évolutive et pratique pour les applications réelles.

English

Effective reasoning remains a core challenge for large language models (LLMs) in the financial domain, where tasks often require domain-specific knowledge, precise numerical calculations, and strict adherence to compliance rules. We propose DianJin-R1, a reasoning-enhanced framework designed to address these challenges through reasoning-augmented supervision and reinforcement learning. Central to our approach is DianJin-R1-Data, a high-quality dataset constructed from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance Check, CCC), combining diverse financial reasoning scenarios with verified annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that generates both reasoning steps and final answers. To further refine reasoning quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement learning method that incorporates dual reward signals: one encouraging structured outputs and another rewarding answer correctness. We evaluate our models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental results show that DianJin-R1 models consistently outperform their non-reasoning counterparts, especially on complex financial tasks. Moreover, on the real-world CCC dataset, our single-call reasoning models match or even surpass the performance of multi-agent systems that require significantly more computational cost. These findings demonstrate the effectiveness of DianJin-R1 in enhancing financial reasoning through structured supervision and reward-aligned learning, offering a scalable and practical solution for real-world applications.

DianJin-R1 : Évaluation et amélioration du raisonnement financier dans les grands modèles de langage

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Résumé

Summary

Support

Support