MegaPairs: Sintesi Massiccia di Dati per il Recupero Multimodale Universale
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
December 19, 2024
Autori: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI
Abstract
Nonostante la crescente domanda di recupero multimodale, i progressi in questo settore rimangono gravemente limitati dalla mancanza di dati di addestramento. In questo articolo, presentiamo MegaPairs, un nuovo metodo di sintesi dati che sfrutta i modelli di visione linguistica (VLM) e le immagini di dominio aperto, insieme a un massiccio dataset sintetico generato da questo metodo. La nostra analisi empirica mostra che MegaPairs genera dati di alta qualità, consentendo al recuperatore multimodale di superare significativamente il modello di base addestrato su 70 volte più dati provenienti dai dataset esistenti. Inoltre, poiché MegaPairs si basa esclusivamente su corpora di immagini generali e VLM open-source, può essere facilmente scalato, consentendo miglioramenti continui nelle prestazioni di recupero. In questa fase, abbiamo prodotto più di 26 milioni di istanze di addestramento e addestrato diversi modelli di dimensioni variabili utilizzando questi dati. Questi nuovi modelli raggiungono prestazioni di zero-shot all'avanguardia su 4 popolari benchmark di recupero di immagini composte (CIR) e le prestazioni complessive più elevate sui 36 dataset forniti da MMEB. Dimostrano anche notevoli miglioramenti delle prestazioni con ulteriore raffinamento a valle. Il nostro dataset prodotto, i modelli ben addestrati e il processo di sintesi dati saranno resi pubblicamente disponibili per facilitare lo sviluppo futuro di questo settore.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this
field remains severely constrained by a lack of training data. In this paper,
we introduce MegaPairs, a novel data synthesis method that leverages vision
language models (VLMs) and open-domain images, together with a massive
synthetic dataset generated from this method. Our empirical analysis shows that
MegaPairs generates high-quality data, enabling the multimodal retriever to
significantly outperform the baseline model trained on 70times more data
from existing datasets. Moreover, since MegaPairs solely relies on general
image corpora and open-source VLMs, it can be easily scaled up, enabling
continuous improvements in retrieval performance. In this stage, we produced
more than 26 million training instances and trained several models of varying
sizes using this data. These new models achieve state-of-the-art zero-shot
performance across 4 popular composed image retrieval (CIR) benchmarks and the
highest overall performance on the 36 datasets provided by MMEB. They also
demonstrate notable performance improvements with additional downstream
fine-tuning. Our produced dataset, well-trained models, and data synthesis
pipeline will be made publicly available to facilitate the future development
of this field.Summary
AI-Generated Summary