ChatPaper.aiChatPaper

Fino1: 재추론이 강화된 LLMs의 금융 분야로의 이식 가능성에 관한 연구

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

February 12, 2025
저자: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI

초록

최근 대형 언어 모델(LLMs)의 발전은 강력한 일반적 추론 능력을 보여주었지만, 금융 추론에서의 효과는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 금융 텍스트, 표 형식 데이터, 그리고 방정식을 포함한 세 가지 복잡한 금융 작업에 대해 16가지 강력한 추론 및 일반 LLMs를 철저하게 평가하며, 수치 추론, 표 해석, 금융 용어 이해, 장기적 맥락 처리, 그리고 방정식 기반 문제 해결을 평가합니다. 결과는 더 나은 데이터셋 및 사전 훈련이 금융 추론을 향상시키지만, CoT 세부 튜닝과 같은 일반적인 향상은 항상 일관된 이득을 가져오지는 않음을 보여줍니다. 또한, 모든 추론 전략은 장기적 맥락 및 다중 테이블 작업에서 성능을 향상시키는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 도메인별 추론 경로를 사용한 CoT 세부 튜닝 및 강화 학습을 통해 Llama-3.1-8B-Instruct를 기반으로 한 금융 추론 강화 모델을 개발합니다. 단순한 금융 데이터셋으로의 세부 튜닝조차도, 우리 모델은 모든 8B 모델과 심지어 평균적으로 Llama3-70B-Instruct 및 Llama3.1-70B-Instruct를 능가하는 일관된 10% 성능 향상을 달성합니다. 결과는 금융 작업에서 도메인별 적응이 필요함을 강조하며, 다중 테이블 추론, 장기적 맥락 처리, 그리고 금융 용어 이해와 같은 미래 방향성을 강조합니다. 모든 데이터셋, 모델, 코드는 공개적으로 이용 가능합니다. 더불어, 미래 데이터셋 및 모델을 벤치마킹하기 위한 리더보드를 소개합니다.
English
Recent advancements in large language models (LLMs) have shown strong general reasoning abilities, yet their effectiveness in financial reasoning remains underexplored. In this study, we comprehensively evaluate 16 powerful reasoning and general LLMs on three complex financial tasks involving financial text, tabular data, and equations, assessing numerical reasoning, tabular interpretation, financial terminology comprehension, long-context processing, and equation-based problem solving. Our results show that while better datasets and pretraining improve financial reasoning, general enhancements like CoT fine-tuning do not always yield consistent gains. Moreover, all reasoning strategies face challenges in improving performance on long-context and multi-table tasks. To address these limitations, we develop a financial reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and reinforcement learning with domain-specific reasoning paths. Even with simple fine-tuning with one financial dataset, our model achieves a consistent 10% performance improvement across tasks, surpassing all 8B models and even Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight the need for domain-specific adaptations in financial tasks, emphasizing future directions such as multi-table reasoning, long-context processing, and financial terminology comprehension. All our datasets, models, and codes are publicly available. Furthermore, we introduce a leaderboard for benchmarking future datasets and models.

Summary

AI-Generated Summary

PDF495February 13, 2025