CamemBERT 2.0: Een Slimmer Frans Taalmodel Gerijpt tot in de Perfectie

Samenvatting

Franse taalmodellen, zoals CamemBERT, zijn wijdverspreid overgenomen in verschillende sectoren voor natuurlijke taalverwerkingstaken (NLP), waarbij modellen zoals CamemBERT maandelijks meer dan 4 miljoen downloads zien. Echter, deze modellen worden geconfronteerd met uitdagingen als gevolg van temporale conceptdrift, waar verouderde trainingsgegevens leiden tot een afname in prestaties, vooral bij het tegenkomen van nieuwe onderwerpen en terminologie. Dit probleem benadrukt de noodzaak van bijgewerkte modellen die de huidige taaltrends weerspiegelen. In dit artikel introduceren we twee nieuwe versies van het CamemBERT basismodel - CamemBERTav2 en CamemBERTv2 - ontworpen om deze uitdagingen aan te pakken. CamemBERTav2 is gebaseerd op de DeBERTaV3-architectuur en maakt gebruik van de Replaced Token Detection (RTD) doelstelling voor een beter contextueel begrip, terwijl CamemBERTv2 is gebouwd op RoBERTa, dat de Masked Language Modeling (MLM) doelstelling gebruikt. Beide modellen zijn getraind op een aanzienlijk grotere en recentere dataset met een langere contextlengte en een bijgewerkte tokenizer die de tokenisatieprestaties voor het Frans verbetert. We evalueren de prestaties van deze modellen op zowel algemene NLP-taken als domeinspecifieke toepassingen, zoals medische taken, waarbij we hun veelzijdigheid en effectiviteit laten zien in een reeks gebruiksscenario's. Onze resultaten tonen aan dat deze bijgewerkte modellen aanzienlijk beter presteren dan hun voorgangers, waardoor ze waardevolle tools zijn voor moderne NLP-systemen. Al onze nieuwe modellen, evenals tussenliggende controlepunten, zijn openlijk beschikbaar gesteld op Huggingface.

English

French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

CamemBERT 2.0: Een Slimmer Frans Taalmodel Gerijpt tot in de Perfectie

CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

Samenvatting

Support