GPT ou BERT : pourquoi pas les deux ?

Résumé

Nous présentons une manière simple de fusionner la modélisation de langage masquée avec la modélisation de langage causale. Cet objectif d'entraînement hybride donne lieu à un modèle qui combine les forces des deux paradigmes de modélisation au sein d'une seule pile de transformateurs : GPT-BERT peut être utilisé de manière transparente comme n'importe quel modèle de langage causale ou masquée standard. Nous testons le processus de pré-entraînement qui permet ce comportement flexible sur le défi BabyLM 2024. Les résultats montrent que le pré-entraînement hybride surpasse les modèles uniquement masqués ou uniquement causaux. Nous publions ouvertement les modèles, les corpus d'entraînement et le code.

English

We present a simple way to merge masked language modeling with causal language modeling. This hybrid training objective results in a model that combines the strengths of both modeling paradigms within a single transformer stack: GPT-BERT can be transparently used like any standard causal or masked language model. We test the pretraining process that enables this flexible behavior on the BabyLM Challenge 2024. The results show that the hybrid pretraining outperforms masked-only or causal-only models. We openly release the models, training corpora and code.

GPT ou BERT : pourquoi pas les deux ?

GPT or BERT: why not both?

Résumé

Summary

Support