ChatPaper.aiChatPaper

Kuwain 1.5B: Een Arabisch SLM via Taalinjectie

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
Auteurs: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

Samenvatting

Het verbeteren van bestaande modellen met nieuwe kennis is een cruciaal aspect van AI-ontwikkeling. Dit artikel introduceert een nieuwe methode voor het integreren van een nieuwe taal in een groot taalmodel (LLM). Onze aanpak voegt succesvol een voorheen onbekende doeltaal toe aan een bestaand LLM zonder het eerdere kennisniveau aan te tasten. We hebben een klein model met 1,5 miljard parameters, genaamd Kuwain, getraind door de Arabische taal te injecteren in een klein open-source model dat voornamelijk in het Engels was getraind. Onze methode toont aanzienlijke verbeteringen in de prestaties van de Arabische taal, met een gemiddelde verbetering van 8% op verschillende benchmarks, terwijl de bestaande kennis van het model behouden blijft met een minimale hoeveelheid van de oorspronkelijke modelgegevens. Dit biedt een kosteneffectief alternatief voor het trainen van een uitgebreid model in zowel Engels als Arabisch. De resultaten benadrukken het potentieel voor efficiënte, gerichte uitbreiding van taalmodelle zonder uitgebreide hertraining of resource-intensieve processen.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025