Facilitando a adaptação de grandes modelos de linguagem em russo com Propagação de Incorporação Aprendida

Facilitating large language model Russian adaptation with Learned Embedding Propagation

December 30, 2024
Autores: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI

Resumo

Os rápidos avanços das tecnologias de modelos de linguagem grandes (LLM) levaram à introdução de LLMs de código aberto, ajustados para instrução, que possuem a mesma qualidade de geração de texto que os equivalentes de ponta, como o GPT-4. Enquanto a emergência desses modelos acelera a adoção das tecnologias LLM em ambientes de informações sensíveis, os autores desses modelos não divulgam os dados de treinamento necessários para a replicação dos resultados, tornando as conquistas exclusivas do modelo. Uma vez que esses modelos de código aberto também são multilíngues, isso, por sua vez, reduz os benefícios de treinar LLMs específicos para idiomas, uma vez que a eficiência aprimorada de computação de inferência se torna a única vantagem garantida desse procedimento custoso. Opções mais econômicas, como a extensão de vocabulário e o subsequente pré-treinamento contínuo, também são inibidas pela falta de acesso a dados de ajuste de instrução de alta qualidade, uma vez que esse é o principal fator por trás das capacidades de resolução de tarefas do LLM resultante. Para lidar com as limitações e reduzir os custos do pipeline de adaptação de idiomas, propomos a Propagação de Incorporação Aprendida (LEP). Ao contrário das abordagens existentes, nosso método possui requisitos menores de tamanho de dados de treinamento devido ao impacto mínimo no conhecimento existente do LLM, que reforçamos usando um procedimento de propagação de incorporação ad hoc inovador que permite pular a etapa de ajuste de instrução e, em vez disso, implantar o novo conhecimento de idioma diretamente em qualquer variante de instrução existente. Avaliamos quatro adaptações de vocabulário russo para LLaMa-3-8B e Mistral-7B, mostrando que o LEP é competitivo com métodos tradicionais de ajuste de instrução, alcançando desempenho comparável ao OpenChat 3.5 e LLaMa-3-8B-Instruct, com melhorias adicionais por meio de auto-calibração e ajuste contínuo aprimorando as capacidades de resolução de tarefas.
English
Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the state-of-the-art counterparts such as GPT-4. While the emergence of such models accelerates the adoption of LLM technologies in sensitive-information environments the authors of such models don not disclose the training data necessary for replication of the results thus making the achievements model-exclusive. Since those open-source models are also multilingual this in turn reduces the benefits of training a language specific LLMs as improved inference computation efficiency becomes the only guaranteed advantage of such costly procedure. More cost-efficient options such as vocabulary extension and subsequent continued pre-training are also inhibited by the lack of access to high-quality instruction-tuning data since it is the major factor behind the resulting LLM task-solving capabilities. To address the limitations and cut the costs of the language adaptation pipeline we propose Learned Embedding Propagation (LEP). Unlike existing approaches our method has lower training data size requirements due to minimal impact on existing LLM knowledge which we reinforce using novel ad-hoc embedding propagation procedure that allows to skip the instruction-tuning step and instead implant the new language knowledge directly into any existing instruct-tuned variant. We evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B, showing that LEP is competitive with traditional instruction-tuning methods, achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with further improvements via self-calibration and continued tuning enhancing task-solving capabilities.

Summary

AI-Generated Summary

PDF152December 31, 2024