CamemBERT 2.0: un modello linguistico in lingua francese più intelligente invecchiato alla perfezione
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
Autori: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Abstract
I modelli linguistici francesi, come CamemBERT, sono stati ampiamente adottati in diversi settori per compiti di elaborazione del linguaggio naturale (NLP), con modelli come CamemBERT che registrano oltre 4 milioni di download al mese. Tuttavia, questi modelli affrontano sfide dovute al concetto di deriva temporale, in cui dati di addestramento obsoleti portano a un calo delle prestazioni, specialmente quando si incontrano nuovi argomenti e terminologia. Questa problematica sottolinea la necessità di modelli aggiornati che riflettano le attuali tendenze linguistiche. In questo articolo, presentiamo due nuove versioni del modello base CamemBERT - CamemBERTav2 e CamemBERTv2 - progettate per affrontare tali sfide. CamemBERTav2 si basa sull'architettura DeBERTaV3 e fa uso dell'obiettivo di Rilevamento dei Token Sostituiti (RTD) per una migliore comprensione contestuale, mentre CamemBERTv2 è costruito su RoBERTa, che utilizza l'obiettivo di Modellazione del Linguaggio Mascherato (MLM). Entrambi i modelli sono addestrati su un dataset significativamente più ampio e recente, con una maggiore lunghezza del contesto e un tokenizer aggiornato che migliora le prestazioni di tokenizzazione per il francese. Valutiamo le prestazioni di questi modelli sia su compiti NLP di dominio generale che su applicazioni specifiche di settore, come compiti nel campo medico, dimostrandone la versatilità ed efficacia in una varietà di casi d'uso. I nostri risultati mostrano che questi modelli aggiornati superano di gran lunga i loro predecessori, rendendoli strumenti preziosi per i moderni sistemi NLP. Tutti i nostri nuovi modelli, così come i checkpoint intermedi, sono resi disponibili pubblicamente su Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.Summary
AI-Generated Summary