Optimalisatie van LLM's voor Italiaans: Vermindering van Token Fertility en Verbetering van Efficiëntie door Vocabulaire Aanpassing
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Auteurs: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Samenvatting
Het aantal vooraf getrainde Large Language Models (LLM's) neemt gestaag toe, hoewel de meeste voornamelijk zijn ontworpen voor de Engelse taal. Hoewel state-of-the-art LLM's andere talen aankunnen, dankzij taalvervuiling of een zekere mate van meertalige voorafgaande trainingsdata, zijn ze niet geoptimaliseerd voor niet-Engelse talen, wat leidt tot inefficiënte codering (hoge token-"vruchtbaarheid") en tragere inferentiesnelheid. In dit werk vergelijken we grondig een verscheidenheid aan vocabulaire-aanpassingstechnieken voor het optimaliseren van Engelse LLM's voor de Italiaanse taal, en introduceren we Semantic Alignment Vocabulary Adaptation (SAVA), een nieuwe methode die neurale mapping benut voor vocabulaire-substitutie. SAVA behaalt competitieve prestaties over meerdere downstream-taken en versterkt gegronde uitlijningsstrategieën. We passen twee LLM's aan: Mistral-7b-v0.1, waarbij de token-vruchtbaarheid met 25\% wordt verminderd, en Llama-3.1-8B, waarbij het vocabulaire wordt geoptimaliseerd en het aantal parameters met 1 miljard wordt verminderd. We tonen aan dat, na de aanpassing van het vocabulaire, deze modellen hun prestaties kunnen herstellen met een relatief beperkte fase van voortgezette training in de doeltaal. Tot slot testen we de mogelijkheden van de aangepaste modellen op verschillende meerkeuze- en generatieve taken.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary