Infinity-MM: Skalierung der multimodalen Leistung mit groß angelegten und hochwertigen Anweisungsdaten

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

October 24, 2024
Autoren: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI

Zusammenfassung

Vision-Language-Modelle (VLMs) haben in letzter Zeit bedeutende Fortschritte gemacht, aber die begrenzte Skala und Qualität von Open-Source-Anweisungsdaten beeinträchtigen im Vergleich zu Closed-Source-Modellen ihre Leistung. In dieser Arbeit gehen wir auf diese Einschränkung ein, indem wir Infinity-MM einführen, einen groß angelegten multimodalen Anweisungsdatensatz mit 40 Millionen Beispielen, der durch rigorose Qualitätsfilterung und Deduplizierung verbessert wurde. Wir schlagen auch eine synthetische Anweisungsgenerierungsmethode auf Basis von Open-Source-VLMs vor, die detaillierte Bildannotationen und diverse Fragegenerierung verwendet. Unter Verwendung dieser Daten haben wir ein 2-Milliarden-Parameter-VLM, Aquila-VL-2B, trainiert und damit eine State-of-the-Art (SOTA)-Leistung für Modelle ähnlicher Größe erreicht. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen signifikant verbessern können.
English
Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.

Summary

AI-Generated Summary

PDF182November 16, 2024