CamemBERT 2.0: Een Slimmer Frans Taalmodel Gerijpt tot in de Perfectie
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
Auteurs: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Samenvatting
Franse taalmodellen, zoals CamemBERT, zijn wijdverspreid overgenomen in verschillende sectoren voor natuurlijke taalverwerkingstaken (NLP), waarbij modellen zoals CamemBERT maandelijks meer dan 4 miljoen downloads zien. Echter, deze modellen worden geconfronteerd met uitdagingen als gevolg van temporale conceptdrift, waar verouderde trainingsgegevens leiden tot een afname in prestaties, vooral bij het tegenkomen van nieuwe onderwerpen en terminologie. Dit probleem benadrukt de noodzaak van bijgewerkte modellen die de huidige taaltrends weerspiegelen. In dit artikel introduceren we twee nieuwe versies van het CamemBERT basismodel - CamemBERTav2 en CamemBERTv2 - ontworpen om deze uitdagingen aan te pakken. CamemBERTav2 is gebaseerd op de DeBERTaV3-architectuur en maakt gebruik van de Replaced Token Detection (RTD) doelstelling voor een beter contextueel begrip, terwijl CamemBERTv2 is gebouwd op RoBERTa, dat de Masked Language Modeling (MLM) doelstelling gebruikt. Beide modellen zijn getraind op een aanzienlijk grotere en recentere dataset met een langere contextlengte en een bijgewerkte tokenizer die de tokenisatieprestaties voor het Frans verbetert. We evalueren de prestaties van deze modellen op zowel algemene NLP-taken als domeinspecifieke toepassingen, zoals medische taken, waarbij we hun veelzijdigheid en effectiviteit laten zien in een reeks gebruiksscenario's. Onze resultaten tonen aan dat deze bijgewerkte modellen aanzienlijk beter presteren dan hun voorgangers, waardoor ze waardevolle tools zijn voor moderne NLP-systemen. Al onze nieuwe modellen, evenals tussenliggende controlepunten, zijn openlijk beschikbaar gesteld op Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.Summary
AI-Generated Summary