Più intelligente, migliore, più veloce, più lungo: Un moderno codificatore bidirezionale per un addestramento e un'infertenza veloci, efficienti in termini di memoria e con un contesto lungo.

Abstract

I modelli transformer basati solo sull'encoder come BERT offrono un ottimo compromesso tra prestazioni e dimensioni per compiti di recupero e classificazione rispetto ai modelli basati solo sul decoder più grandi. Nonostante siano il cavallo di battaglia di numerose pipeline di produzione, ci sono state poche miglioramenti di Pareto a BERT dall'uscita. In questo articolo, presentiamo ModernBERT, che porta moderne ottimizzazioni di modelli ai modelli basati solo sull'encoder e rappresenta un importante miglioramento di Pareto rispetto ai vecchi encoder. Addestrati su 2 trilioni di token con una lunghezza di sequenza nativa di 8192, i modelli ModernBERT mostrano risultati all'avanguardia su un ampio insieme di valutazioni che comprendono diversi compiti di classificazione e sia il recupero vettoriale singolo che multi-vettoriale in diversi domini (incluso il codice). Oltre alle solide prestazioni downstream, ModernBERT è anche l'encoder più efficiente in termini di velocità e memoria ed è progettato per l'inferenza su GPU comuni.

English

Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse of numerous production pipelines, there have been limited Pareto improvements to BERT since its release. In this paper, we introduce ModernBERT, bringing modern model optimizations to encoder-only models and representing a major Pareto improvement over older encoders. Trained on 2 trillion tokens with a native 8192 sequence length, ModernBERT models exhibit state-of-the-art results on a large pool of evaluations encompassing diverse classification tasks and both single and multi-vector retrieval on different domains (including code). In addition to strong downstream performance, ModernBERT is also the most speed and memory efficient encoder and is designed for inference on common GPUs.

Più intelligente, migliore, più veloce, più lungo: Un moderno codificatore bidirezionale per un addestramento e un'infertenza veloci, efficienti in termini di memoria e con un contesto lungo.

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Abstract

Summary

Support