FLAG-Trader: 그래디언트 기반 강화 학습을 통합한 LLM-에이전트 금융 트레이딩 시스템
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading
February 17, 2025
저자: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
초록
다양한 금융 데이터에 미세 조정된 대규모 언어 모델(LLMs)은 다양한 금융 업무에서 인상적인 추론 능력을 보여주었습니다. 그러나 거래와 같은 상호작용적인 금융 시장에서 목표 지향적인 다단계 시나리오에서는 복잡한 에이전트 기반 접근 방식이 필요하여 의사 결정을 개선하기 어려운 경우가 많습니다. 이를 해결하기 위해, 우리는 FLAG-Trader라는 통합 아키텍처를 제안합니다. 이 아키텍처는 언어 처리(LLMs를 통해)와 그래디언트 기반 강화 학습(RL) 정책 최적화를 통합하며, 부분적으로 미세 조정된 LLM이 정책 네트워크로 작동하여 사전 학습된 지식을 활용하면서도 매개변수 효율적 미세 조정을 통해 금융 도메인에 적응합니다. 거래 보상에 의해 주도되는 정책 그래디언트 최적화를 통해, 우리의 프레임워크는 거래에서의 LLM 성능을 향상시킬 뿐만 아니라 다른 금융 도메인 작업에서도 결과를 개선합니다. 이러한 개선을 검증하기 위한 광범위한 실증적 증거를 제시합니다.
English
Large language models (LLMs) fine-tuned on multimodal financial data have
demonstrated impressive reasoning capabilities in various financial tasks.
However, they often struggle with multi-step, goal-oriented scenarios in
interactive financial markets, such as trading, where complex agentic
approaches are required to improve decision-making. To address this, we propose
FLAG-Trader, a unified architecture integrating linguistic processing
(via LLMs) with gradient-driven reinforcement learning (RL) policy
optimization, in which a partially fine-tuned LLM acts as the policy network,
leveraging pre-trained knowledge while adapting to the financial domain through
parameter-efficient fine-tuning. Through policy gradient optimization driven by
trading rewards, our framework not only enhances LLM performance in trading but
also improves results on other financial-domain tasks. We present extensive
empirical evidence to validate these enhancements.Summary
AI-Generated Summary