Open-Qwen2VL: Pre-addestramento Efficiente dal Punto di Vista Computazionale di Modelli Linguistici Multimodali Completamente Aperti su Risorse Accademiche
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
April 1, 2025
Autori: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI
Abstract
La riproduzione del pre-training di modelli linguistici multimodali all'avanguardia incontra ostacoli in ogni fase della pipeline, inclusi il filtraggio di dati di alta qualità, le strategie di miscelazione di dati multimodali, le tecniche di impacchettamento delle sequenze e i framework di addestramento. Presentiamo Open-Qwen2VL, un modello linguistico multimodale open-source da 2 miliardi di parametri, pre-addestrato in modo efficiente su 29 milioni di coppie immagine-testo utilizzando solo 442 ore di GPU A100-40G. Il nostro approccio impiega una risoluzione dinamica delle immagini da bassa ad alta e l'impacchettamento di sequenze multimodali per migliorare significativamente l'efficienza del pre-training. Il dataset di addestramento è stato curato con attenzione utilizzando sia tecniche di filtraggio basate su MLLM (ad esempio, MLM-Filter) che metodi di filtraggio convenzionali basati su CLIP, migliorando sostanzialmente la qualità dei dati e l'efficienza dell'addestramento. Il pre-training di Open-Qwen2VL è stato condotto su GPU 8xA100-40G di livello accademico presso l'UCSB su 5 miliardi di token multimodali impacchettati, che rappresentano lo 0,36% dei 1,4 trilioni di token multimodali di pre-training di Qwen2-VL. La versione finale di Open-Qwen2VL, ottimizzata per istruzioni, supera il modello MLLM parzialmente open-source all'avanguardia Qwen2-VL-2B su vari benchmark multimodali come MMBench, SEEDBench, MMstar e MathVista, dimostrando la notevole efficienza di addestramento di Open-Qwen2VL. Rilasciamo open-source tutti gli aspetti del nostro lavoro, inclusi i dettagli dell'addestramento efficiente in termini di calcolo e dati, i metodi di filtraggio dei dati, gli script per l'impacchettamento delle sequenze, i dati di pre-training in formato WebDataset, il codice di addestramento basato su FSDP, e i checkpoint sia del modello base che di quello ottimizzato per istruzioni. Ridefiniamo "completamente open" per i modelli linguistici multimodali come il rilascio completo di: 1) il codice di addestramento, 2) le tecniche dettagliate di filtraggio dei dati, e 3) tutti i dati di pre-training e di fine-tuning supervisionato utilizzati per sviluppare il modello.
English
The reproduction of state-of-the-art multimodal LLM pre-training faces
barriers at every stage of the pipeline, including high-quality data filtering,
multimodal data mixture strategies, sequence packing techniques, and training
frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter
Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs
using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic
image resolution and multimodal sequence packing to significantly enhance
pre-training efficiency. The training dataset was carefully curated using both
MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based
filtering methods, substantially improving data quality and training
efficiency. The Open-Qwen2VL pre-training is conducted on academic level
8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T
multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned
Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on
various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista,
indicating the remarkable training efficiency of Open-Qwen2VL. We open-source
all aspects of our work, including compute-efficient and data-efficient
training details, data filtering methods, sequence packing scripts,
pre-training data in WebDataset format, FSDP-based training codebase, and both
base and instruction-tuned model checkpoints. We redefine "fully open" for
multimodal LLMs as the complete release of: 1) the training codebase, 2)
detailed data filtering techniques, and 3) all pre-training and supervised
fine-tuning data used to develop the model.Summary
AI-Generated Summary