DianJin-R1 : Évaluation et amélioration du raisonnement financier dans les grands modèles de langage
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Auteurs: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Résumé
Le raisonnement efficace reste un défi central pour les grands modèles de langage (LLMs) dans le domaine financier, où les tâches nécessitent souvent des connaissances spécifiques au domaine, des calculs numériques précis et un strict respect des règles de conformité. Nous proposons DianJin-R1, un cadre renforcé en raisonnement conçu pour relever ces défis grâce à une supervision augmentée par le raisonnement et à l'apprentissage par renforcement. Au cœur de notre approche se trouve DianJin-R1-Data, un ensemble de données de haute qualité construit à partir de CFLUE, FinQA et d'un corpus propriétaire de conformité (Chinese Compliance Check, CCC), combinant divers scénarios de raisonnement financier avec des annotations vérifiées. Nos modèles, DianJin-R1-7B et DianJin-R1-32B, sont affinés à partir de Qwen2.5-7B-Instruct et Qwen2.5-32B-Instruct en utilisant un format structuré qui génère à la fois les étapes de raisonnement et les réponses finales. Pour affiner davantage la qualité du raisonnement, nous appliquons l'Optimisation Relative de Politique de Groupe (Group Relative Policy Optimization, GRPO), une méthode d'apprentissage par renforcement qui intègre des signaux de récompense doubles : l'un encourageant les sorties structurées et l'autre récompensant l'exactitude des réponses. Nous évaluons nos modèles sur cinq benchmarks : trois ensembles de données financières (CFLUE, FinQA et CCC) et deux benchmarks de raisonnement général (MATH-500 et GPQA-Diamond). Les résultats expérimentaux montrent que les modèles DianJin-R1 surpassent systématiquement leurs homologues sans raisonnement, en particulier sur les tâches financières complexes. De plus, sur l'ensemble de données CCC du monde réel, nos modèles de raisonnement en un seul appel égalent ou surpassent même les performances des systèmes multi-agents qui nécessitent un coût de calcul significativement plus élevé. Ces résultats démontrent l'efficacité de DianJin-R1 pour améliorer le raisonnement financier grâce à une supervision structurée et un apprentissage aligné sur les récompenses, offrant une solution évolutive et pratique pour les applications réelles.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary