Infinity-MM : Amélioration des performances multimodales à grande échelle avec des données d'instructions de haute qualité
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
October 24, 2024
Auteurs: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI
Résumé
Les modèles Vision-Language (VLMs) ont récemment progressé de manière significative, mais l'échelle limitée et la qualité des données d'instructions open-source entravent leurs performances par rapport aux modèles closed-source. Dans ce travail, nous abordons cette limitation en introduisant Infinity-MM, un ensemble de données d'instructions multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage de qualité rigoureux et à une déduplication. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open-source, en utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons entraîné un VLM de 2 milliards de paramètres, Aquila-VL-2B, atteignant des performances de pointe (SOTA) pour des modèles de taille similaire. Cela démontre que l'expansion des données d'instructions et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open-source.
English
Vision-Language Models (VLMs) have recently made significant progress, but
the limited scale and quality of open-source instruction data hinder their
performance compared to closed-source models. In this work, we address this
limitation by introducing Infinity-MM, a large-scale multimodal instruction
dataset with 40 million samples, enhanced through rigorous quality filtering
and deduplication. We also propose a synthetic instruction generation method
based on open-source VLMs, using detailed image annotations and diverse
question generation. Using this data, we trained a 2-billion-parameter VLM,
Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of
similar scale. This demonstrates that expanding instruction data and generating
synthetic data can significantly improve the performance of open-source models.Summary
AI-Generated Summary