ChatPaper.aiChatPaper

학습된 임베딩 전파를 사용하여 대규모 언어 모델의 러시아어 적응을 용이하게 하는 방법

Facilitating large language model Russian adaptation with Learned Embedding Propagation

December 30, 2024
저자: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI

초록

대형 언어 모델 (LLM) 기술의 신속한 발전으로 강력한 오픈 소스 지시 튜닝 LLM이 소개되었으며, 이러한 모델은 GPT-4와 같은 최첨단 모델과 동일한 텍스트 생성 품질을 갖추고 있습니다. 이러한 모델의 등장은 민감한 정보 환경에서 LLM 기술의 채택을 가속화시키지만, 이러한 모델의 저자들은 결과를 복제하기 위해 필요한 훈련 데이터를 공개하지 않아 성취가 모델 전용으로 제한됩니다. 이러한 오픈 소스 모델이 다국어 지원이 되어 있기 때문에 언어별 LLM을 훈련하는 이점이 감소하며, 개선된 추론 계산 효율성이 유일하게 보장되는 이 비용이 많이 드는 절차의 장점이 됩니다. 어휘 확장 및 이어지는 지속적인 사전 훈련과 같은 더 비용 효율적인 옵션들도 높은 품질의 지시 튜닝 데이터에 대한 접근이 제한되어 있어 억제됩니다. 이 데이터가 결과적으로 LLM 작업 해결 능력의 주요 요인이기 때문입니다. 이러한 제한사항을 해결하고 언어 적응 파이프라인의 비용을 줄이기 위해 우리는 학습된 임베딩 전파 (LEP)를 제안합니다. 기존 방법과 달리 우리의 방법은 기존 LLM 지식에 미치는 영향이 적어서 학습 데이터 크기 요구 사항이 낮습니다. 이를 위해 새로운 특별 임베딩 전파 절차를 사용하여 지시 튜닝 단계를 건너뛰고 새로운 언어 지식을 기존의 지시 튜닝된 변형에 직접 구현할 수 있습니다. 우리는 LLaMa-3-8B 및 Mistral-7B에 대한 네 가지 러시아어 어휘 적응을 평가했으며, LEP가 전통적인 지시 튜닝 방법과 경쟁력을 갖추며 OpenChat 3.5 및 LLaMa-3-8B-Instruct와 유사한 성능을 달성하며, 자가 보정 및 지속적인 튜닝을 통해 작업 해결 능력을 향상시키는 것을 보여주었습니다.
English
Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the state-of-the-art counterparts such as GPT-4. While the emergence of such models accelerates the adoption of LLM technologies in sensitive-information environments the authors of such models don not disclose the training data necessary for replication of the results thus making the achievements model-exclusive. Since those open-source models are also multilingual this in turn reduces the benefits of training a language specific LLMs as improved inference computation efficiency becomes the only guaranteed advantage of such costly procedure. More cost-efficient options such as vocabulary extension and subsequent continued pre-training are also inhibited by the lack of access to high-quality instruction-tuning data since it is the major factor behind the resulting LLM task-solving capabilities. To address the limitations and cut the costs of the language adaptation pipeline we propose Learned Embedding Propagation (LEP). Unlike existing approaches our method has lower training data size requirements due to minimal impact on existing LLM knowledge which we reinforce using novel ad-hoc embedding propagation procedure that allows to skip the instruction-tuning step and instead implant the new language knowledge directly into any existing instruct-tuned variant. We evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B, showing that LEP is competitive with traditional instruction-tuning methods, achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with further improvements via self-calibration and continued tuning enhancing task-solving capabilities.

Summary

AI-Generated Summary

PDF172December 31, 2024