Infinity-MM: Het schalen van multimodale prestaties met grootschalige en hoogwaardige instructiedata

Samenvatting

Vision-Language Modellen (VLM's) hebben recentelijk aanzienlijke vooruitgang geboekt, maar de beperkte omvang en kwaliteit van open-source instructiedata belemmeren hun prestaties in vergelijking met gesloten-source modellen. In dit werk pakken we deze beperking aan door Infinity-MM te introduceren, een grootschalige multimodale instructiedataset met 40 miljoen voorbeelden, verbeterd door rigoureuze kwaliteitsfiltering en deduplicatie. We stellen ook een synthetische instructiegeneratiemethode voor op basis van open-source VLM's, met gedetailleerde afbeeldingsannotaties en diverse vraaggeneratie. Met behulp van deze gegevens hebben we een 2 miljard parameters tellend VLM, Aquila-VL-2B, getraind, wat resulteerde in state-of-the-art (SOTA) prestaties voor modellen van vergelijkbare omvang. Dit toont aan dat het uitbreiden van instructiedata en het genereren van synthetische data de prestaties van open-source modellen aanzienlijk kan verbeteren.

English

Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.

Infinity-MM: Het schalen van multimodale prestaties met grootschalige en hoogwaardige instructiedata

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Samenvatting

Summary

Support