Clinical ModernBERT: Un codificatore efficiente e a contesto lungo per il testo biomedico
Clinical ModernBERT: An efficient and long context encoder for biomedical text
April 4, 2025
Autori: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI
Abstract
Presentiamo Clinical ModernBERT, un encoder basato su transformer pre-addestrato su vasta letteratura biomedica, note cliniche e ontologie mediche, incorporando abstract di PubMed, dati clinici MIMIC IV e codici medici con le loro descrizioni testuali. Basandoci su ModernBERT, l'attuale stato dell'arte degli encoder di testo in linguaggio naturale che include aggiornamenti architetturali come gli embedding posizionali rotazionali (RoPE), Flash Attention e una lunghezza contestuale estesa fino a 8.192 token, il nostro modello adatta queste innovazioni specificamente per i domini biomedici e clinici. Clinical ModernBERT eccelle nel produrre rappresentazioni semanticamente ricche ottimizzate per attività con contesti lunghi. Validiamo ciò sia analizzando i suoi pesi pre-addestrati che attraverso valutazioni empiriche su una suite completa di benchmark di NLP clinico.
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on
large scale biomedical literature, clinical notes, and medical ontologies,
incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with
their textual descriptions. Building on ModernBERT the current state of the art
natural language text encoder featuring architectural upgrades such as rotary
positional embeddings (RoPE), Flash Attention, and extended context length up
to 8,192 tokens our model adapts these innovations specifically for biomedical
and clinical domains. Clinical ModernBERT excels at producing semantically rich
representations tailored for long context tasks. We validate this both by
analyzing its pretrained weights and through empirical evaluation on a
comprehensive suite of clinical NLP benchmarks.Summary
AI-Generated Summary