ModernBERT o DeBERTaV3? Esaminando l'influenza dell'architettura e dei dati sulle prestazioni dei modelli Transformer Encoder
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Autori: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Abstract
Modelli pre-addestrati basati su encoder di trasformatori come DeBERTaV3 e ModernBERT introducono avanzamenti architetturali mirati a migliorare l'efficienza e le prestazioni. Sebbene gli autori di ModernBERT riportino prestazioni migliori rispetto a DeBERTaV3 su diversi benchmark, la mancanza di dati di addestramento divulgati e l'assenza di confronti utilizzando un dataset condiviso rendono difficile determinare se questi miglioramenti siano dovuti a innovazioni architetturali o a differenze nei dati di addestramento. In questo lavoro, conduciamo uno studio controllato pre-addestrando ModernBERT sullo stesso dataset utilizzato per CamemBERTaV2, un modello DeBERTaV3 in francese, isolando così l'effetto del design del modello. I nostri risultati mostrano che la generazione precedente di modelli rimane superiore in termini di efficienza campionaria e prestazioni complessive sui benchmark, con il principale vantaggio di ModernBERT che risiede in una velocità di addestramento e inferenza più rapida. Tuttavia, il nuovo modello proposto offre comunque miglioramenti architetturali significativi rispetto a modelli precedenti come BERT e RoBERTa. Inoltre, osserviamo che dati di pre-addestramento di alta qualità accelerano la convergenza ma non migliorano significativamente le prestazioni finali, suggerendo una possibile saturazione dei benchmark. Questi risultati evidenziano l'importanza di separare i dati di pre-addestramento dalle innovazioni architetturali quando si valutano modelli basati su trasformatori.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary