Infinity-MM : Amélioration des performances multimodales à grande échelle avec des données d'instructions de haute qualité

Résumé

Les modèles Vision-Language (VLMs) ont récemment progressé de manière significative, mais l'échelle limitée et la qualité des données d'instructions open-source entravent leurs performances par rapport aux modèles closed-source. Dans ce travail, nous abordons cette limitation en introduisant Infinity-MM, un ensemble de données d'instructions multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage de qualité rigoureux et à une déduplication. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open-source, en utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons entraîné un VLM de 2 milliards de paramètres, Aquila-VL-2B, atteignant des performances de pointe (SOTA) pour des modèles de taille similaire. Cela démontre que l'expansion des données d'instructions et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open-source.

English

Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.

Infinity-MM : Amélioration des performances multimodales à grande échelle avec des données d'instructions de haute qualité

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Résumé

Summary

Support