CamemBERT 2.0: Ein intelligenteres französisches Sprachmodell, perfekt gereift

CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

November 13, 2024
Autoren: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI

Zusammenfassung

Französische Sprachmodelle wie CamemBERT wurden in verschiedenen Branchen für Aufgaben der natürlichen Sprachverarbeitung (NLP) weit verbreitet übernommen, wobei Modelle wie CamemBERT monatlich über 4 Millionen Downloads verzeichnen. Diese Modelle stehen jedoch vor Herausforderungen aufgrund von zeitlichem Konzeptwandel, bei dem veraltete Trainingsdaten zu einer Leistungsminderung führen, insbesondere bei der Begegnung neuer Themen und Terminologie. Dieses Problem unterstreicht die Notwendigkeit von aktualisierten Modellen, die aktuelle sprachliche Trends widerspiegeln. In diesem Artikel stellen wir zwei neue Versionen des CamemBERT-Basismodells vor - CamemBERTav2 und CamemBERTv2 -, die entwickelt wurden, um diesen Herausforderungen zu begegnen. CamemBERTav2 basiert auf der DeBERTaV3-Architektur und nutzt das Replaced Token Detection (RTD)-Ziel für ein besseres kontextuelles Verständnis, während CamemBERTv2 auf RoBERTa aufbaut, das das Masked Language Modeling (MLM)-Ziel verwendet. Beide Modelle werden auf einem deutlich größeren und aktuelleren Datensatz mit längerer Kontextlänge und einem aktualisierten Tokenizer trainiert, der die Tokenisierungsleistung für das Französische verbessert. Wir bewerten die Leistung dieser Modelle sowohl bei NLP-Aufgaben im Allgemeinen als auch bei domänenspezifischen Anwendungen, wie beispielsweise medizinischen Aufgaben, und zeigen ihre Vielseitigkeit und Effektivität in einer Vielzahl von Anwendungsfällen. Unsere Ergebnisse zeigen, dass diese aktualisierten Modelle ihre Vorgänger bei weitem übertreffen und sie zu wertvollen Werkzeugen für moderne NLP-Systeme machen. Alle unsere neuen Modelle sowie Zwischenstände sind öffentlich auf Huggingface verfügbar gemacht worden.
English
French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

Summary

AI-Generated Summary

PDF124November 14, 2024