Optimierung von LLMs für Italienisch: Reduzierung der Token-Fertilität und Steigerung der Effizienz durch Vokabularanpassung
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Autoren: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Zusammenfassung
Die Anzahl vortrainierter Large Language Models (LLMs) nimmt stetig zu, wobei die Mehrheit jedoch vorwiegend für die englische Sprache konzipiert ist. Obwohl state-of-the-art LLMs andere Sprachen verarbeiten können, bedingt durch Sprachkontamination oder einen gewissen Grad an mehrsprachigen Vortrainingsdaten, sind sie nicht für nicht-englische Sprachen optimiert, was zu ineffizienter Kodierung (hohe Token-"Fertilität") und langsamerer Inferenzgeschwindigkeit führt. In dieser Arbeit vergleichen wir umfassend verschiedene Vokabularanpassungstechniken zur Optimierung englischer LLMs für die italienische Sprache und stellen Semantic Alignment Vocabulary Adaptation (SAVA) vor, eine neuartige Methode, die neuronale Mapping für die Vokabularsubstitution nutzt. SAVA erzielt wettbewerbsfähige Leistungen in mehreren Downstream-Aufgaben und verbessert fundierte Ausrichtungsstrategien. Wir passen zwei LLMs an: Mistral-7b-v0.1, wodurch die Token-Fertilität um 25\% reduziert wird, und Llama-3.1-8B, bei dem das Vokabular optimiert und die Anzahl der Parameter um 1 Milliarde verringert wird. Wir zeigen, dass diese Modelle nach der Vokabularanpassung ihre Leistung mit einer relativ begrenzten Phase des kontinuierlichen Trainings in der Zielsprache wiedererlangen können. Schließlich testen wir die Fähigkeiten der angepassten Modelle in verschiedenen Multiple-Choice- und generativen Aufgaben.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary