Optimisation des LLM pour l'italien : Réduction de la fertilité des tokens et amélioration de l'efficacité par l'adaptation du vocabulaire
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Auteurs: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Résumé
Le nombre de grands modèles de langage (LLM) pré-entraînés augmente régulièrement, bien que la majorité soit principalement conçue pour la langue anglaise. Bien que les LLM de pointe puissent gérer d'autres langues, en raison de la contamination linguistique ou d'un certain degré de données de pré-entraînement multilingues, ils ne sont pas optimisés pour les langues non anglaises, ce qui entraîne un encodage inefficace (forte "fertilité" des tokens) et une vitesse d'inférence plus lente. Dans ce travail, nous comparons en détail diverses techniques d'adaptation de vocabulaire pour optimiser les LLM anglais pour la langue italienne, et proposons l'Adaptation de Vocabulaire par Alignement Sémantique (SAVA), une méthode novatrice qui exploite la cartographie neuronale pour la substitution de vocabulaire. SAVA obtient des performances compétitives sur plusieurs tâches en aval, améliorant les stratégies d'alignement ancrées. Nous adaptons deux LLM : Mistral-7b-v0.1, réduisant la fertilité des tokens de 25\%, et Llama-3.1-8B, optimisant le vocabulaire et réduisant le nombre de paramètres d'un milliard. Nous montrons qu'après l'adaptation du vocabulaire, ces modèles peuvent retrouver leurs performances avec une étape relativement limitée d'entraînement continu sur la langue cible. Enfin, nous testons les capacités des modèles adaptés sur diverses tâches à choix multiples et génératives.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary