NeoBERT: BERT следующего поколения
NeoBERT: A Next-Generation BERT
February 26, 2025
Авторы: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI
Аннотация
Последние инновации в архитектуре, предварительном обучении и тонкой настройке привели к впечатляющим способностям к обучению в контексте и рассуждениям крупных авторегрессивных языковых моделей, таких как LLaMA и DeepSeek. В то же время, кодировщики, такие как BERT и RoBERTa, не продемонстрировали аналогичного прогресса, несмотря на их фундаментальную роль во многих задачах NLP. Чтобы преодолеть этот разрыв, мы представляем NeoBERT — кодировщик нового поколения, который переопределяет возможности двунаправленных моделей, интегрируя передовые достижения в архитектуре, современные данные и оптимизированные методы предварительного обучения. NeoBERT разработан для легкого внедрения: он служит готовой заменой существующим базовым моделям, использует оптимальное соотношение глубины и ширины и поддерживает расширенную длину контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, он достигает наилучших результатов на масштабном бенчмарке MTEB, превосходя BERT large, RoBERTa large, NomicBERT и ModernBERT при идентичных условиях тонкой настройки. Кроме того, мы тщательно оцениваем влияние каждой модификации на GLUE и разрабатываем унифицированную структуру для тонкой настройки и оценки на MTEB. Мы публикуем весь код, данные, контрольные точки и скрипты обучения, чтобы ускорить исследования и практическое применение.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to
the remarkable in-context learning and reasoning abilities of large
auto-regressive language models such as LLaMA and DeepSeek. In contrast,
encoders like BERT and RoBERTa have not seen the same level of progress despite
being foundational for many downstream NLP applications. To bridge this gap, we
introduce NeoBERT, a next-generation encoder that redefines the capabilities of
bidirectional models by integrating state-of-the-art advancements in
architecture, modern data, and optimized pre-training methodologies. NeoBERT is
designed for seamless adoption: it serves as a plug-and-play replacement for
existing base models, relies on an optimal depth-to-width ratio, and leverages
an extended context length of 4,096 tokens. Despite its compact 250M parameter
footprint, it achieves state-of-the-art results on the massive MTEB benchmark,
outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under
identical fine-tuning conditions. In addition, we rigorously evaluate the
impact of each modification on GLUE and design a uniform fine-tuning and
evaluation framework for MTEB. We release all code, data, checkpoints, and
training scripts to accelerate research and real-world adoption.Summary
AI-Generated Summary