学習された埋め込みの伝播を用いた大規模言語モデルのロシア語適応の促進

Facilitating large language model Russian adaptation with Learned Embedding Propagation

December 30, 2024
著者: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI

要旨

大規模言語モデル(LLM)技術の急速な進歩により、GPT-4などの最先端モデルと同等のテキスト生成品質を持つ強力なオープンソースの指示チューニングLLMが登場しました。このようなモデルの出現により、機密情報環境でのLLM技術の採用が加速されますが、これらのモデルの作成者は結果の複製に必要なトレーニングデータを開示していないため、達成はモデル固有となっています。これらのオープンソースモデルは多言語対応しているため、言語固有のLLMをトレーニングする利点が減少し、改善された推論計算効率がその高コスト手法の唯一の保証された利点となります。語彙の拡張や継続的な事前トレーニングなどのより費用対効果の高い選択肢も、高品質の指示チューニングデータへのアクセスの欠如によって妨げられています。このデータが結果のLLMタスク解決能力の主要な要因であるためです。これらの制限を解決し、言語適応パイプラインのコストを削減するために、Learned Embedding Propagation(LEP)を提案しています。既存のアプローチとは異なり、当社の手法は既存のLLM知識にほとんど影響を与えないため、トレーニングデータサイズ要件が低くなっています。これは、新しい言語知識を直接任意の既存の指示チューニングバリアントに埋め込むことができる新しい特許出願中の埋め込み伝播手順を使用して強化しています。私たちは、LLaMa-3-8BおよびMistral-7B向けの4つのロシア語語彙適応を評価し、LEPが従来の指示チューニング方法と競合し、OpenChat 3.5およびLLaMa-3-8B-Instructと同等のパフォーマンスを達成し、自己較正と継続的なチューニングによるタスク解決能力の向上を通じてさらなる改善を実現していることを示しました。
English
Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the state-of-the-art counterparts such as GPT-4. While the emergence of such models accelerates the adoption of LLM technologies in sensitive-information environments the authors of such models don not disclose the training data necessary for replication of the results thus making the achievements model-exclusive. Since those open-source models are also multilingual this in turn reduces the benefits of training a language specific LLMs as improved inference computation efficiency becomes the only guaranteed advantage of such costly procedure. More cost-efficient options such as vocabulary extension and subsequent continued pre-training are also inhibited by the lack of access to high-quality instruction-tuning data since it is the major factor behind the resulting LLM task-solving capabilities. To address the limitations and cut the costs of the language adaptation pipeline we propose Learned Embedding Propagation (LEP). Unlike existing approaches our method has lower training data size requirements due to minimal impact on existing LLM knowledge which we reinforce using novel ad-hoc embedding propagation procedure that allows to skip the instruction-tuning step and instead implant the new language knowledge directly into any existing instruct-tuned variant. We evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B, showing that LEP is competitive with traditional instruction-tuning methods, achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with further improvements via self-calibration and continued tuning enhancing task-solving capabilities.

Summary

AI-Generated Summary

PDF152December 31, 2024