Open-Qwen2VL: Pre-addestramento Efficiente dal Punto di Vista Computazionale di Modelli Linguistici Multimodali Completamente Aperti su Risorse Accademiche

Abstract

La riproduzione del pre-training di modelli linguistici multimodali all'avanguardia incontra ostacoli in ogni fase della pipeline, inclusi il filtraggio di dati di alta qualità, le strategie di miscelazione di dati multimodali, le tecniche di impacchettamento delle sequenze e i framework di addestramento. Presentiamo Open-Qwen2VL, un modello linguistico multimodale open-source da 2 miliardi di parametri, pre-addestrato in modo efficiente su 29 milioni di coppie immagine-testo utilizzando solo 442 ore di GPU A100-40G. Il nostro approccio impiega una risoluzione dinamica delle immagini da bassa ad alta e l'impacchettamento di sequenze multimodali per migliorare significativamente l'efficienza del pre-training. Il dataset di addestramento è stato curato con attenzione utilizzando sia tecniche di filtraggio basate su MLLM (ad esempio, MLM-Filter) che metodi di filtraggio convenzionali basati su CLIP, migliorando sostanzialmente la qualità dei dati e l'efficienza dell'addestramento. Il pre-training di Open-Qwen2VL è stato condotto su GPU 8xA100-40G di livello accademico presso l'UCSB su 5 miliardi di token multimodali impacchettati, che rappresentano lo 0,36% dei 1,4 trilioni di token multimodali di pre-training di Qwen2-VL. La versione finale di Open-Qwen2VL, ottimizzata per istruzioni, supera il modello MLLM parzialmente open-source all'avanguardia Qwen2-VL-2B su vari benchmark multimodali come MMBench, SEEDBench, MMstar e MathVista, dimostrando la notevole efficienza di addestramento di Open-Qwen2VL. Rilasciamo open-source tutti gli aspetti del nostro lavoro, inclusi i dettagli dell'addestramento efficiente in termini di calcolo e dati, i metodi di filtraggio dei dati, gli script per l'impacchettamento delle sequenze, i dati di pre-training in formato WebDataset, il codice di addestramento basato su FSDP, e i checkpoint sia del modello base che di quello ottimizzato per istruzioni. Ridefiniamo "completamente open" per i modelli linguistici multimodali come il rilascio completo di: 1) il codice di addestramento, 2) le tecniche dettagliate di filtraggio dei dati, e 3) tutti i dati di pre-training e di fine-tuning supervisionato utilizzati per sviluppare il modello.

English

The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

Open-Qwen2VL: Pre-addestramento Efficiente dal Punto di Vista Computazionale di Modelli Linguistici Multimodali Completamente Aperti su Risorse Accademiche

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Abstract

Summary

Support

Support