CamemBERT 2.0: 완벽히 숙성된 스마트한 프랑스어 언어 모델
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
저자: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
초록
프랑스어 언어 모델인 CamemBERT와 같은 모델들이 자연어 처리(NLP) 작업을 위해 산업 전반에서 널리 채택되었으며, CamemBERT와 같은 모델은 매월 400만 회 이상 다운로드되고 있습니다. 그러나 이러한 모델들은 시간적 개념 변화로 인한 도전에 직면하고 있습니다. 구식의 훈련 데이터로 인해 성능이 저하되는데, 특히 새로운 주제와 용어를 다룰 때 이러한 문제가 더 두드러집니다. 이 문제는 현재의 언어적 트렌드를 반영하는 업데이트된 모델이 필요함을 강조합니다. 본 논문에서는 이러한 도전에 대응하기 위해 개발된 CamemBERT 기본 모델의 두 가지 새로운 버전인 CamemBERTav2와 CamemBERTv2를 소개합니다. CamemBERTav2는 DeBERTaV3 아키텍처를 기반으로 하며, 더 나은 문맥 이해를 위해 Replaced Token Detection (RTD) 목적을 활용합니다. 반면 CamemBERTv2는 RoBERTa를 기반으로 하며, Masked Language Modeling (MLM) 목적을 사용합니다. 두 모델은 프랑스어의 토큰화 성능을 향상시키는 업데이트된 토크나이저와 함께 훨씬 더 크고 최근의 데이터셋에서 훈련되었습니다. 이러한 모델들의 성능을 일반적인 NLP 작업 및 의료 분야 작업과 같은 도메인 특정 응용 프로그램에서 평가하여, 다양한 사용 사례에 걸쳐 그들의 다재다능성과 효과를 입증합니다. 결과는 이러한 업데이트된 모델들이 이전 모델들을 크게 능가함을 보여주며, 현대적인 NLP 시스템에 유용한 도구로 만들어줍니다. 우리의 모든 새로운 모델과 중간 체크포인트는 Huggingface에서 공개적으로 제공됩니다.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.Summary
AI-Generated Summary