Leggi di Scalabilità per Modelli Multimodali Nativi Leggi di Scalabilità per Modelli Multimodali Nativi

Abstract

La costruzione di modelli a scopo generale in grado di percepire efficacemente il mondo attraverso segnali multimodali è stato un obiettivo di lunga data. Gli approcci attuali prevedono l'integrazione di componenti pre-addestrati separatamente, come il collegamento di encoder visivi a LLM e la continuazione dell'addestramento multimodale. Sebbene tali approcci mostrino una notevole efficienza campionaria, rimane una questione aperta se queste architetture a fusione tardiva siano intrinsecamente superiori. In questo lavoro, riprendiamo in esame la progettazione architetturale dei modelli multimodali nativi (NMM)—quelli addestrati da zero su tutte le modalità—e conduciamo uno studio estensivo sulle leggi di scala, analizzando 457 modelli addestrati con diverse architetture e miscele di addestramento. La nostra indagine rivela che non esiste un vantaggio intrinseco delle architetture a fusione tardiva rispetto a quelle a fusione precoce, che non si basano su encoder di immagini. Al contrario, la fusione precoce mostra prestazioni più robuste con un numero inferiore di parametri, è più efficiente da addestrare e più semplice da implementare. Motivati dalle prestazioni superiori delle architetture a fusione precoce, dimostriamo che l'incorporazione di Mixture of Experts (MoE) consente ai modelli di apprendere pesi specifici per ciascuna modalità, migliorando significativamente le prestazioni.

English

Building general-purpose models that can effectively perceive the world through multimodal signals has been a long-standing goal. Current approaches involve integrating separately pre-trained components, such as connecting vision encoders to LLMs and continuing multimodal training. While such approaches exhibit remarkable sample efficiency, it remains an open question whether such late-fusion architectures are inherently superior. In this work, we revisit the architectural design of native multimodal models (NMMs)--those trained from the ground up on all modalities--and conduct an extensive scaling laws study, spanning 457 trained models with different architectures and training mixtures. Our investigation reveals no inherent advantage to late-fusion architectures over early-fusion ones, which do not rely on image encoders. On the contrary, early-fusion exhibits stronger performance at lower parameter counts, is more efficient to train, and is easier to deploy. Motivated by the strong performance of the early-fusion architectures, we show that incorporating Mixture of Experts (MoEs) allows for models that learn modality-specific weights, significantly enhancing performance.

Leggi di Scalabilità per Modelli Multimodali Nativi Leggi di Scalabilità per Modelli Multimodali Nativi

Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models

Abstract

Summary

Support

Support