CamemBERT 2.0 : un modèle de langue français plus intelligent vieilli à la perfection
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
Auteurs: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Résumé
Les modèles de langue en français, tels que CamemBERT, ont été largement adoptés dans divers secteurs pour des tâches de traitement du langage naturel (NLP), avec des modèles comme CamemBERT enregistrant plus de 4 millions de téléchargements par mois. Cependant, ces modèles sont confrontés à des défis dus à la dérive conceptuelle temporelle, où des données d'entraînement obsolètes entraînent une baisse de performance, notamment lors de la rencontre de nouveaux sujets et terminologies. Cette problématique souligne le besoin de modèles actualisés reflétant les tendances linguistiques actuelles. Dans cet article, nous présentons deux nouvelles versions du modèle de base CamemBERT - CamemBERTav2 et CamemBERTv2 - conçues pour relever ces défis. CamemBERTav2 est basé sur l'architecture DeBERTaV3 et utilise l'objectif de Détection de Token Remplacé (RTD) pour une meilleure compréhension contextuelle, tandis que CamemBERTv2 est construit sur RoBERTa, qui utilise l'objectif de Modélisation de Langue Masquée (MLM). Les deux modèles sont entraînés sur un ensemble de données significativement plus grand et plus récent, avec une longueur de contexte accrue et un tokenizer mis à jour améliorant les performances de tokenization pour le français. Nous évaluons les performances de ces modèles à la fois sur des tâches de NLP de domaine général et des applications spécifiques à un domaine, telles que des tâches médicales, démontrant leur polyvalence et leur efficacité dans une gamme de cas d'utilisation. Nos résultats montrent que ces modèles actualisés surpassent largement leurs prédécesseurs, en faisant des outils précieux pour les systèmes de NLP modernes. Tous nos nouveaux modèles, ainsi que les points de contrôle intermédiaires, sont rendus disponibles publiquement sur Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.Summary
AI-Generated Summary