ModernBERT o DeBERTaV3? Esaminando l'influenza dell'architettura e dei dati sulle prestazioni dei modelli Transformer Encoder

Abstract

Modelli pre-addestrati basati su encoder di trasformatori come DeBERTaV3 e ModernBERT introducono avanzamenti architetturali mirati a migliorare l'efficienza e le prestazioni. Sebbene gli autori di ModernBERT riportino prestazioni migliori rispetto a DeBERTaV3 su diversi benchmark, la mancanza di dati di addestramento divulgati e l'assenza di confronti utilizzando un dataset condiviso rendono difficile determinare se questi miglioramenti siano dovuti a innovazioni architetturali o a differenze nei dati di addestramento. In questo lavoro, conduciamo uno studio controllato pre-addestrando ModernBERT sullo stesso dataset utilizzato per CamemBERTaV2, un modello DeBERTaV3 in francese, isolando così l'effetto del design del modello. I nostri risultati mostrano che la generazione precedente di modelli rimane superiore in termini di efficienza campionaria e prestazioni complessive sui benchmark, con il principale vantaggio di ModernBERT che risiede in una velocità di addestramento e inferenza più rapida. Tuttavia, il nuovo modello proposto offre comunque miglioramenti architetturali significativi rispetto a modelli precedenti come BERT e RoBERTa. Inoltre, osserviamo che dati di pre-addestramento di alta qualità accelerano la convergenza ma non migliorano significativamente le prestazioni finali, suggerendo una possibile saturazione dei benchmark. Questi risultati evidenziano l'importanza di separare i dati di pre-addestramento dalle innovazioni architetturali quando si valutano modelli basati su trasformatori.

English

Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

ModernBERT o DeBERTaV3? Esaminando l'influenza dell'architettura e dei dati sulle prestazioni dei modelli Transformer Encoder

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Abstract

Summary

Support

Support