DianJin-R1: Bewertung und Verbesserung des finanziellen Denkens in großen Sprachmodellen
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Autoren: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Zusammenfassung
Effektives Schlussfolgern bleibt eine zentrale Herausforderung für große Sprachmodelle (LLMs) im Finanzbereich, wo Aufgaben oft domänenspezifisches Wissen, präzise numerische Berechnungen und strikte Einhaltung von Compliance-Regeln erfordern. Wir stellen DianJin-R1 vor, ein reasoning-verstärktes Framework, das diese Herausforderungen durch reasoning-augmentierte Überwachung und Reinforcement Learning adressiert. Kern unseres Ansatzes ist DianJin-R1-Data, ein hochwertiger Datensatz, der aus CFLUE, FinQA und einem proprietären Compliance-Korpus (Chinese Compliance Check, CCC) konstruiert wurde und diverse Finanz-Szenarien mit verifizierten Annotationen kombiniert. Unsere Modelle, DianJin-R1-7B und DianJin-R1-32B, wurden aus Qwen2.5-7B-Instruct und Qwen2.5-32B-Instruct mittels eines strukturierten Formats feinabgestimmt, das sowohl Reasoning-Schritte als auch endgültige Antworten generiert. Um die Reasoning-Qualität weiter zu verfeinern, wenden wir Group Relative Policy Optimization (GRPO) an, eine Reinforcement-Learning-Methode, die duale Belohnungssignale einbezieht: eines fördert strukturierte Ausgaben und ein anderes belohnt die Richtigkeit der Antworten. Wir evaluieren unsere Modelle anhand von fünf Benchmarks: drei Finanzdatensätzen (CFLUE, FinQA und CCC) und zwei allgemeinen Reasoning-Benchmarks (MATH-500 und GPQA-Diamond). Die experimentellen Ergebnisse zeigen, dass die DianJin-R1-Modelle ihre nicht-reasoning-basierten Gegenstücke konsequent übertreffen, insbesondere bei komplexen Finanzaufgaben. Darüber hinaus erreichen unsere Single-Call-Reasoning-Modelle auf dem realen CCC-Datensatz eine Leistung, die der von Multi-Agenten-Systemen entspricht oder diese sogar übertrifft, die jedoch deutlich höhere Rechenkosten verursachen. Diese Ergebnisse demonstrieren die Effektivität von DianJin-R1 bei der Verbesserung des finanziellen Reasonings durch strukturierte Überwachung und belohnungsorientiertes Lernen und bieten eine skalierbare und praktische Lösung für reale Anwendungen.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary