LLäMmlein: Modelli linguistici compatti e competitivi in tedesco creati da zero

Abstract

Abbiamo creato due modelli di decodifica solo in tedesco, LL\"aMmlein 120M e 1B, in modo trasparente da zero e li abbiamo pubblicati, insieme ai dati di addestramento, per la comunità di ricerca NLP tedesca. L'addestramento del modello ha coinvolto diversi passaggi chiave, tra cui un'ampia pre-elaborazione dei dati, la creazione di un tokenizzatore tedesco personalizzato, l'addestramento vero e proprio, nonché la valutazione dei modelli finali su vari benchmark. Durante il processo di addestramento, sono stati salvati e analizzati diversi checkpoint utilizzando il benchmark SuperGLEBer per monitorare la dinamica di apprendimento dei modelli. Rispetto ai modelli all'avanguardia sul benchmark SuperGLEBer, entrambi i modelli LL\"aMmlein si sono comportati in modo competitivo, corrispondendo costantemente o superando modelli con dimensioni di parametri simili. I risultati mostrano che la qualità dei modelli aumenta con la dimensione come previsto, ma i miglioramenti delle prestazioni su alcuni compiti si sono stabilizzati presto, offrendo preziose intuizioni sull'allocazione delle risorse per lo sviluppo futuro dei modelli.

English

We create two German-only decoder models, LL\"aMmlein 120M and 1B, transparently from scratch and publish them, along with the training data, for the German NLP research community to use. The model training involved several key steps, including extensive data preprocessing, the creation of a custom German tokenizer, the training itself, as well as the evaluation of the final models on various benchmarks. Throughout the training process, multiple checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor the models' learning dynamics. Compared to state-of-the-art models on the SuperGLEBer benchmark, both LL\"aMmlein models performed competitively, consistently matching or surpassing models with similar parameter sizes. The results show that the models' quality scales with size as expected, but performance improvements on some tasks plateaued early, offering valuable insights into resource allocation for future model development.

LLäMmlein: Modelli linguistici compatti e competitivi in tedesco creati da zero

LLäMmlein: Compact and Competitive German-Only Language Models from Scratch

Abstract

Support