Infinity-MM: Scalare le prestazioni multimodali con dati di istruzione di larga scala e di alta qualità
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
October 24, 2024
Autori: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI
Abstract
I modelli Vision-Language (VLMs) hanno recentemente fatto progressi significativi, ma la limitata scala e qualità dei dati di istruzioni open-source ostacolano le loro prestazioni rispetto ai modelli closed-source. In questo lavoro, affrontiamo questa limitazione introducendo Infinity-MM, un dataset di istruzioni multimodale su larga scala con 40 milioni di campioni, potenziato attraverso un rigoroso filtraggio della qualità e deduplicazione. Proponiamo inoltre un metodo di generazione di istruzioni sintetiche basato su VLMs open-source, utilizzando dettagliate annotazioni delle immagini e diversa generazione di domande. Utilizzando questi dati, abbiamo addestrato un VLM con 2 miliardi di parametri, Aquila-VL-2B, raggiungendo prestazioni all'avanguardia per modelli di dimensioni simili. Ciò dimostra che l'espansione dei dati di istruzioni e la generazione di dati sintetici possono migliorare significativamente le prestazioni dei modelli open-source.
English
Vision-Language Models (VLMs) have recently made significant progress, but
the limited scale and quality of open-source instruction data hinder their
performance compared to closed-source models. In this work, we address this
limitation by introducing Infinity-MM, a large-scale multimodal instruction
dataset with 40 million samples, enhanced through rigorous quality filtering
and deduplication. We also propose a synthetic instruction generation method
based on open-source VLMs, using detailed image annotations and diverse
question generation. Using this data, we trained a 2-billion-parameter VLM,
Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of
similar scale. This demonstrates that expanding instruction data and generating
synthetic data can significantly improve the performance of open-source models.Summary
AI-Generated Summary