ChatPaper.aiChatPaper

¿ModernBERT o DeBERTaV3? Examinando la influencia de la arquitectura y los datos en el rendimiento de los modelos de codificadores Transformer

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

April 11, 2025
Autores: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI

Resumen

Los modelos preentrenados de codificador transformador como DeBERTaV3 y ModernBERT introducen avances arquitectónicos orientados a mejorar la eficiencia y el rendimiento. Aunque los autores de ModernBERT reportan un mejor rendimiento en comparación con DeBERTaV3 en varios benchmarks, la falta de datos de entrenamiento divulgados y la ausencia de comparaciones utilizando un conjunto de datos compartido dificultan determinar si estas mejoras se deben a avances arquitectónicos o a diferencias en los datos de entrenamiento. En este trabajo, realizamos un estudio controlado preentrenando ModernBERT con el mismo conjunto de datos que CamemBERTaV2, un modelo DeBERTaV3 en francés, aislando así el efecto del diseño del modelo. Nuestros resultados muestran que la generación anterior de modelos sigue siendo superior en eficiencia de muestreo y rendimiento general en los benchmarks, siendo la principal ventaja de ModernBERT su velocidad más rápida en entrenamiento e inferencia. Sin embargo, el nuevo modelo propuesto aún ofrece mejoras arquitectónicas significativas en comparación con modelos anteriores como BERT y RoBERTa. Además, observamos que los datos de preentrenamiento de alta calidad aceleran la convergencia pero no mejoran significativamente el rendimiento final, lo que sugiere una posible saturación en los benchmarks. Estos hallazgos destacan la importancia de separar los datos de preentrenamiento de las innovaciones arquitectónicas al evaluar modelos transformadores.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

Summary

AI-Generated Summary

PDF103April 14, 2025