LLäMmlein: Modelli linguistici compatti e competitivi in tedesco creati da zero
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch
November 17, 2024
Autori: Jan Pfister, Julia Wunderle, Andreas Hotho
cs.AI
Abstract
Abbiamo creato due modelli di decodifica solo in tedesco, LL\"aMmlein 120M e 1B, in modo trasparente da zero e li abbiamo pubblicati, insieme ai dati di addestramento, per la comunità di ricerca NLP tedesca. L'addestramento del modello ha coinvolto diversi passaggi chiave, tra cui un'ampia pre-elaborazione dei dati, la creazione di un tokenizzatore tedesco personalizzato, l'addestramento vero e proprio, nonché la valutazione dei modelli finali su vari benchmark. Durante il processo di addestramento, sono stati salvati e analizzati diversi checkpoint utilizzando il benchmark SuperGLEBer per monitorare la dinamica di apprendimento dei modelli. Rispetto ai modelli all'avanguardia sul benchmark SuperGLEBer, entrambi i modelli LL\"aMmlein si sono comportati in modo competitivo, corrispondendo costantemente o superando modelli con dimensioni di parametri simili. I risultati mostrano che la qualità dei modelli aumenta con la dimensione come previsto, ma i miglioramenti delle prestazioni su alcuni compiti si sono stabilizzati presto, offrendo preziose intuizioni sull'allocazione delle risorse per lo sviluppo futuro dei modelli.
English
We create two German-only decoder models, LL\"aMmlein 120M and 1B,
transparently from scratch and publish them, along with the training data, for
the German NLP research community to use. The model training involved several
key steps, including extensive data preprocessing, the creation of a custom
German tokenizer, the training itself, as well as the evaluation of the final
models on various benchmarks. Throughout the training process, multiple
checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor
the models' learning dynamics. Compared to state-of-the-art models on the
SuperGLEBer benchmark, both LL\"aMmlein models performed competitively,
consistently matching or surpassing models with similar parameter sizes. The
results show that the models' quality scales with size as expected, but
performance improvements on some tasks plateaued early, offering valuable
insights into resource allocation for future model development.Summary
AI-Generated Summary