GPT ou BERT : pourquoi pas les deux ?
GPT or BERT: why not both?
October 31, 2024
Auteurs: Lucas Georges Gabriel Charpentier, David Samuel
cs.AI
Résumé
Nous présentons une manière simple de fusionner la modélisation de langage masquée avec la modélisation de langage causale. Cet objectif d'entraînement hybride donne lieu à un modèle qui combine les forces des deux paradigmes de modélisation au sein d'une seule pile de transformateurs : GPT-BERT peut être utilisé de manière transparente comme n'importe quel modèle de langage causale ou masquée standard. Nous testons le processus de pré-entraînement qui permet ce comportement flexible sur le défi BabyLM 2024. Les résultats montrent que le pré-entraînement hybride surpasse les modèles uniquement masqués ou uniquement causaux. Nous publions ouvertement les modèles, les corpus d'entraînement et le code.
English
We present a simple way to merge masked language modeling with causal
language modeling. This hybrid training objective results in a model that
combines the strengths of both modeling paradigms within a single transformer
stack: GPT-BERT can be transparently used like any standard causal or masked
language model. We test the pretraining process that enables this flexible
behavior on the BabyLM Challenge 2024. The results show that the hybrid
pretraining outperforms masked-only or causal-only models. We openly release
the models, training corpora and code.Summary
AI-Generated Summary