Infinity-MM : Amélioration des performances multimodales à grande échelle avec des données d'instructions de haute qualité

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

October 24, 2024
Auteurs: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI

Résumé

Les modèles Vision-Language (VLMs) ont récemment progressé de manière significative, mais l'échelle limitée et la qualité des données d'instructions open-source entravent leurs performances par rapport aux modèles closed-source. Dans ce travail, nous abordons cette limitation en introduisant Infinity-MM, un ensemble de données d'instructions multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage de qualité rigoureux et à une déduplication. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open-source, en utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons entraîné un VLM de 2 milliards de paramètres, Aquila-VL-2B, atteignant des performances de pointe (SOTA) pour des modèles de taille similaire. Cela démontre que l'expansion des données d'instructions et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open-source.
English
Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.

Summary

AI-Generated Summary

PDF182November 16, 2024