Leggi di Scalabilità per Modelli Multimodali Nativi Leggi di Scalabilità per Modelli Multimodali Nativi
Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models
April 10, 2025
Autori: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
cs.AI
Abstract
La costruzione di modelli a scopo generale in grado di percepire efficacemente il mondo attraverso segnali multimodali è stato un obiettivo di lunga data. Gli approcci attuali prevedono l'integrazione di componenti pre-addestrati separatamente, come il collegamento di encoder visivi a LLM e la continuazione dell'addestramento multimodale. Sebbene tali approcci mostrino una notevole efficienza campionaria, rimane una questione aperta se queste architetture a fusione tardiva siano intrinsecamente superiori. In questo lavoro, riprendiamo in esame la progettazione architetturale dei modelli multimodali nativi (NMM)—quelli addestrati da zero su tutte le modalità—e conduciamo uno studio estensivo sulle leggi di scala, analizzando 457 modelli addestrati con diverse architetture e miscele di addestramento. La nostra indagine rivela che non esiste un vantaggio intrinseco delle architetture a fusione tardiva rispetto a quelle a fusione precoce, che non si basano su encoder di immagini. Al contrario, la fusione precoce mostra prestazioni più robuste con un numero inferiore di parametri, è più efficiente da addestrare e più semplice da implementare. Motivati dalle prestazioni superiori delle architetture a fusione precoce, dimostriamo che l'incorporazione di Mixture of Experts (MoE) consente ai modelli di apprendere pesi specifici per ciascuna modalità, migliorando significativamente le prestazioni.
English
Building general-purpose models that can effectively perceive the world
through multimodal signals has been a long-standing goal. Current approaches
involve integrating separately pre-trained components, such as connecting
vision encoders to LLMs and continuing multimodal training. While such
approaches exhibit remarkable sample efficiency, it remains an open question
whether such late-fusion architectures are inherently superior. In this work,
we revisit the architectural design of native multimodal models (NMMs)--those
trained from the ground up on all modalities--and conduct an extensive scaling
laws study, spanning 457 trained models with different architectures and
training mixtures. Our investigation reveals no inherent advantage to
late-fusion architectures over early-fusion ones, which do not rely on image
encoders. On the contrary, early-fusion exhibits stronger performance at lower
parameter counts, is more efficient to train, and is easier to deploy.
Motivated by the strong performance of the early-fusion architectures, we show
that incorporating Mixture of Experts (MoEs) allows for models that learn
modality-specific weights, significantly enhancing performance.Summary
AI-Generated Summary