NeoBERT: BERT следующего поколения

Аннотация

Последние инновации в архитектуре, предварительном обучении и тонкой настройке привели к впечатляющим способностям к обучению в контексте и рассуждениям крупных авторегрессивных языковых моделей, таких как LLaMA и DeepSeek. В то же время, кодировщики, такие как BERT и RoBERTa, не продемонстрировали аналогичного прогресса, несмотря на их фундаментальную роль во многих задачах NLP. Чтобы преодолеть этот разрыв, мы представляем NeoBERT — кодировщик нового поколения, который переопределяет возможности двунаправленных моделей, интегрируя передовые достижения в архитектуре, современные данные и оптимизированные методы предварительного обучения. NeoBERT разработан для легкого внедрения: он служит готовой заменой существующим базовым моделям, использует оптимальное соотношение глубины и ширины и поддерживает расширенную длину контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, он достигает наилучших результатов на масштабном бенчмарке MTEB, превосходя BERT large, RoBERTa large, NomicBERT и ModernBERT при идентичных условиях тонкой настройки. Кроме того, мы тщательно оцениваем влияние каждой модификации на GLUE и разрабатываем унифицированную структуру для тонкой настройки и оценки на MTEB. Мы публикуем весь код, данные, контрольные точки и скрипты обучения, чтобы ускорить исследования и практическое применение.

English

Recent innovations in architecture, pre-training, and fine-tuning have led to the remarkable in-context learning and reasoning abilities of large auto-regressive language models such as LLaMA and DeepSeek. In contrast, encoders like BERT and RoBERTa have not seen the same level of progress despite being foundational for many downstream NLP applications. To bridge this gap, we introduce NeoBERT, a next-generation encoder that redefines the capabilities of bidirectional models by integrating state-of-the-art advancements in architecture, modern data, and optimized pre-training methodologies. NeoBERT is designed for seamless adoption: it serves as a plug-and-play replacement for existing base models, relies on an optimal depth-to-width ratio, and leverages an extended context length of 4,096 tokens. Despite its compact 250M parameter footprint, it achieves state-of-the-art results on the massive MTEB benchmark, outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under identical fine-tuning conditions. In addition, we rigorously evaluate the impact of each modification on GLUE and design a uniform fine-tuning and evaluation framework for MTEB. We release all code, data, checkpoints, and training scripts to accelerate research and real-world adoption.

NeoBERT: BERT следующего поколения

NeoBERT: A Next-Generation BERT

Аннотация

Summary

Support