Agevolare l'adattamento in lingua russa di grandi modelli linguistici con la Propagazione degli Embedding Appresa
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Autori: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Abstract
I rapidi progressi delle tecnologie dei grandi modelli linguistici (LLM) hanno portato all'introduzione di potenti LLM open-source sintonizzati sull'istruzione che presentano la stessa qualità di generazione di testo dei controparti all'avanguardia come il GPT-4. Mentre l'emergere di tali modelli accelera l'adozione delle tecnologie LLM in ambienti sensibili alle informazioni, gli autori di tali modelli non divulghino i dati di addestramento necessari per replicare i risultati, rendendo così gli achievement esclusivi del modello. Poiché tali modelli open-source sono anche multilingue, ciò riduce a sua volta i vantaggi dell'addestramento di LLM specifici per una lingua poiché l'efficienza migliorata del calcolo dell'inferenza diventa l'unico vantaggio garantito di tale costosa procedura. Opzioni più economiche come l'estensione del vocabolario e il successivo continuo pre-addestramento sono anche ostacolate dalla mancanza di accesso a dati di sintonizzazione dell'istruzione di alta qualità poiché è il principale fattore dietro le capacità di risoluzione dei compiti dei LLM risultanti. Per affrontare le limitazioni e ridurre i costi del processo di adattamento linguistico, proponiamo la Propagazione dell'Incorporamento Appreso (LEP). A differenza degli approcci esistenti, il nostro metodo ha requisiti di dimensioni minori per i dati di addestramento a causa dell'impatto minimo sulle conoscenze LLM esistenti che rafforziamo utilizzando una procedura di propagazione dell'incorporamento ad hoc che consente di saltare il passaggio di sintonizzazione dell'istruzione e invece impiantare direttamente le nuove conoscenze linguistiche in qualsiasi variante LLM esistente sintonizzata sull'istruzione. Abbiamo valutato quattro adattamenti del vocabolario russo per LLaMa-3-8B e Mistral-7B, dimostrando che LEP è competitivo con i metodi tradizionali di sintonizzazione dell'istruzione, raggiungendo prestazioni paragonabili a OpenChat 3.5 e LLaMa-3-8B-Instruct, con ulteriori miglioramenti tramite auto-calibrazione e sintonizzazione continua che potenziano le capacità di risoluzione dei compiti.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary