金融LLM向けのドメイン適応型ポストトレーニングの解明
Demystifying Domain-adaptive Post-training for Financial LLMs
January 9, 2025
著者: Zixuan Ke, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty
cs.AI
要旨
大規模言語モデル(LLMs)のドメイン適応後のトレーニングは、医学や金融などの特定の領域において有望なアプローチとして登場しています。ただし、さまざまなデータやモデル構成にわたる最適な適応基準やトレーニング戦略の特定には、重要な課題が残っています。これらの課題に対処するために、私たちは、ファイナンス領域向けのLLMsのドメイン適応後のトレーニングについての体系的かつ詳細な調査であるFINDAPを紹介します。私たちのアプローチは、対象ドメインに必要な主要な機能を特定し、これらのニーズに合致する包括的な評価スイートを設計することから始まります。その後、継続的な事前トレーニング、指示チューニング、および選好の整列など、主要なポストトレーニング段階の効果を分析します。これらの知見を基に、新しい選好データ蒸留手法に焦点を当てた効果的なトレーニングレシピを提案します。この手法は、生成報酬モデルからのプロセス信号を活用します。その結果得られるモデル、Llama-Finは、幅広い金融タスクにおいて最先端のパフォーマンスを達成します。私たちの分析は、各ポストトレーニング段階が異なる機能にどのように貢献するかを明らかにし、特定の課題と効果的な解決策を明らかにし、LLMsのドメイン適応に貴重な洞察を提供します。プロジェクトページ:https://github.com/SalesforceAIResearch/FinDap
English
Domain-adaptive post-training of large language models (LLMs) has emerged as
a promising approach for specialized domains such as medicine and finance.
However, significant challenges remain in identifying optimal adaptation
criteria and training strategies across varying data and model configurations.
To address these challenges, we introduce FINDAP, a systematic and fine-grained
investigation into domain-adaptive post-training of LLMs for the finance
domain. Our approach begins by identifying the core capabilities required for
the target domain and designing a comprehensive evaluation suite aligned with
these needs. We then analyze the effectiveness of key post-training stages,
including continual pretraining, instruction tuning, and preference alignment.
Building on these insights, we propose an effective training recipe centered on
a novel preference data distillation method, which leverages process signals
from a generative reward model. The resulting model, Llama-Fin, achieves
state-of-the-art performance across a wide range of financial tasks. Our
analysis also highlights how each post-training stage contributes to distinct
capabilities, uncovering specific challenges and effective solutions, providing
valuable insights for domain adaptation of LLMs. Project page:
https://github.com/SalesforceAIResearch/FinDapSummary
AI-Generated Summary