CamemBERT 2.0 : un modèle de langue français plus intelligent vieilli à la perfection

Résumé

Les modèles de langue en français, tels que CamemBERT, ont été largement adoptés dans divers secteurs pour des tâches de traitement du langage naturel (NLP), avec des modèles comme CamemBERT enregistrant plus de 4 millions de téléchargements par mois. Cependant, ces modèles sont confrontés à des défis dus à la dérive conceptuelle temporelle, où des données d'entraînement obsolètes entraînent une baisse de performance, notamment lors de la rencontre de nouveaux sujets et terminologies. Cette problématique souligne le besoin de modèles actualisés reflétant les tendances linguistiques actuelles. Dans cet article, nous présentons deux nouvelles versions du modèle de base CamemBERT - CamemBERTav2 et CamemBERTv2 - conçues pour relever ces défis. CamemBERTav2 est basé sur l'architecture DeBERTaV3 et utilise l'objectif de Détection de Token Remplacé (RTD) pour une meilleure compréhension contextuelle, tandis que CamemBERTv2 est construit sur RoBERTa, qui utilise l'objectif de Modélisation de Langue Masquée (MLM). Les deux modèles sont entraînés sur un ensemble de données significativement plus grand et plus récent, avec une longueur de contexte accrue et un tokenizer mis à jour améliorant les performances de tokenization pour le français. Nous évaluons les performances de ces modèles à la fois sur des tâches de NLP de domaine général et des applications spécifiques à un domaine, telles que des tâches médicales, démontrant leur polyvalence et leur efficacité dans une gamme de cas d'utilisation. Nos résultats montrent que ces modèles actualisés surpassent largement leurs prédécesseurs, en faisant des outils précieux pour les systèmes de NLP modernes. Tous nos nouveaux modèles, ainsi que les points de contrôle intermédiaires, sont rendus disponibles publiquement sur Huggingface.

English

French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

CamemBERT 2.0 : un modèle de langue français plus intelligent vieilli à la perfection

CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

Résumé

Summary

Support