LLäMmlein: Compacte en Competitieve Duitstalige Taalmodellen vanaf Nul

Samenvatting

We hebben twee Duits-only decodermodellen gecreëerd, LL\"aMmlein 120M en 1B, transparant vanaf nul, en deze, samen met de trainingsgegevens, gepubliceerd voor de Duitse NLP-onderzoeksgemeenschap om te gebruiken. Het modeltrainingsproces omvatte verschillende essentiële stappen, waaronder uitgebreide gegevensvoorverwerking, de ontwikkeling van een aangepaste Duitse tokeniser, de eigenlijke training, evenals de evaluatie van de uiteindelijke modellen op verschillende benchmarks. Gedurende het trainingsproces werden meerdere checkpoints opgeslagen en geanalyseerd met behulp van de SuperGLEBer benchmark om de leerdynamiek van de modellen te monitoren. In vergelijking met state-of-the-art modellen op de SuperGLEBer benchmark presteerden beide LL\"aMmlein modellen concurrerend, waarbij ze consequent overeenkwamen met of modellen met vergelijkbare parametergroottes overtroffen. De resultaten tonen aan dat de kwaliteit van de modellen toeneemt met de grootte zoals verwacht, maar dat prestatieverbeteringen op sommige taken vroeg afvlakten, wat waardevolle inzichten biedt in de toewijzing van middelen voor toekomstige modelontwikkeling.

English

We create two German-only decoder models, LL\"aMmlein 120M and 1B, transparently from scratch and publish them, along with the training data, for the German NLP research community to use. The model training involved several key steps, including extensive data preprocessing, the creation of a custom German tokenizer, the training itself, as well as the evaluation of the final models on various benchmarks. Throughout the training process, multiple checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor the models' learning dynamics. Compared to state-of-the-art models on the SuperGLEBer benchmark, both LL\"aMmlein models performed competitively, consistently matching or surpassing models with similar parameter sizes. The results show that the models' quality scales with size as expected, but performance improvements on some tasks plateaued early, offering valuable insights into resource allocation for future model development.

LLäMmlein: Compacte en Competitieve Duitstalige Taalmodellen vanaf Nul

LLäMmlein: Compact and Competitive German-Only Language Models from Scratch

Samenvatting

Summary

Support