Optimierung von LLMs für Italienisch: Reduzierung der Token-Fertilität und Steigerung der Effizienz durch Vokabularanpassung

Zusammenfassung

Die Anzahl vortrainierter Large Language Models (LLMs) nimmt stetig zu, wobei die Mehrheit jedoch vorwiegend für die englische Sprache konzipiert ist. Obwohl state-of-the-art LLMs andere Sprachen verarbeiten können, bedingt durch Sprachkontamination oder einen gewissen Grad an mehrsprachigen Vortrainingsdaten, sind sie nicht für nicht-englische Sprachen optimiert, was zu ineffizienter Kodierung (hohe Token-"Fertilität") und langsamerer Inferenzgeschwindigkeit führt. In dieser Arbeit vergleichen wir umfassend verschiedene Vokabularanpassungstechniken zur Optimierung englischer LLMs für die italienische Sprache und stellen Semantic Alignment Vocabulary Adaptation (SAVA) vor, eine neuartige Methode, die neuronale Mapping für die Vokabularsubstitution nutzt. SAVA erzielt wettbewerbsfähige Leistungen in mehreren Downstream-Aufgaben und verbessert fundierte Ausrichtungsstrategien. Wir passen zwei LLMs an: Mistral-7b-v0.1, wodurch die Token-Fertilität um 25\% reduziert wird, und Llama-3.1-8B, bei dem das Vokabular optimiert und die Anzahl der Parameter um 1 Milliarde verringert wird. Wir zeigen, dass diese Modelle nach der Vokabularanpassung ihre Leistung mit einer relativ begrenzten Phase des kontinuierlichen Trainings in der Zielsprache wiedererlangen können. Schließlich testen wir die Fähigkeiten der angepassten Modelle in verschiedenen Multiple-Choice- und generativen Aufgaben.

English

The number of pretrained Large Language Models (LLMs) is increasing steadily, though the majority are designed predominantly for the English language. While state-of-the-art LLMs can handle other languages, due to language contamination or some degree of multilingual pretraining data, they are not optimized for non-English languages, leading to inefficient encoding (high token "fertility") and slower inference speed. In this work, we thoroughly compare a variety of vocabulary adaptation techniques for optimizing English LLMs for the Italian language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a novel method that leverages neural mapping for vocabulary substitution. SAVA achieves competitive performance across multiple downstream tasks, enhancing grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and reducing the number of parameters by 1 billion. We show that, following the adaptation of the vocabulary, these models can recover their performance with a relatively limited stage of continual training on the target language. Finally, we test the capabilities of the adapted models on various multi-choice and generative tasks.

Optimierung von LLMs für Italienisch: Reduzierung der Token-Fertilität und Steigerung der Effizienz durch Vokabularanpassung

Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

Zusammenfassung

Summary

Support

Support