DianJin-R1: Evaluatie en verbetering van financieel redeneren in grote taalmodelle
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Auteurs: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Samenvatting
Effectief redeneren blijft een kernuitdaging voor grote taalmodellen (LLMs) in het financiële domein, waar taken vaak domeinspecifieke kennis, precieze numerieke berekeningen en strikte naleving van compliance-regels vereisen. Wij stellen DianJin-R1 voor, een raamwerk voor verbeterd redeneren dat deze uitdagingen aanpakt door middel van redeneringsondersteund toezicht en reinforcement learning. Centraal in onze aanpak staat DianJin-R1-Data, een hoogwaardige dataset samengesteld uit CFLUE, FinQA en een propriëtaire compliance-corpus (Chinese Compliance Check, CCC), die diverse financiële redeneerscenario's combineert met geverifieerde annotaties. Onze modellen, DianJin-R1-7B en DianJin-R1-32B, zijn afgestemd op Qwen2.5-7B-Instruct en Qwen2.5-32B-Instruct met behulp van een gestructureerd formaat dat zowel redeneerstappen als eindantwoorden genereert. Om de redeneerkwaliteit verder te verfijnen, passen we Group Relative Policy Optimization (GRPO) toe, een reinforcement learning-methode die dubbele beloningssignalen incorporeert: één die gestructureerde uitvoer aanmoedigt en een andere die de juistheid van het antwoord beloont. We evalueren onze modellen op vijf benchmarks: drie financiële datasets (CFLUE, FinQA en CCC) en twee algemene redeneerbenchmarks (MATH-500 en GPQA-Diamond). Experimentele resultaten tonen aan dat de DianJin-R1-modellen consistent beter presteren dan hun niet-redenerende tegenhangers, vooral op complexe financiële taken. Bovendien presteren onze single-call redeneermodellen op de real-world CCC-dataset even goed of zelfs beter dan multi-agent systemen die aanzienlijk meer rekenkracht vereisen. Deze bevindingen demonstreren de effectiviteit van DianJin-R1 in het verbeteren van financieel redeneren door gestructureerd toezicht en beloningsgericht leren, en bieden een schaalbare en praktische oplossing voor real-world toepassingen.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary