MegaPares: Síntese de Dados em Massa para Recuperação Multimodal Universal
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
December 19, 2024
Autores: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI
Resumo
Apesar da demanda em rápido crescimento por recuperação multimodal, o progresso neste campo continua severamente limitado pela falta de dados de treinamento. Neste artigo, apresentamos o MegaPairs, um novo método de síntese de dados que aproveita modelos de visão e linguagem (VLMs) e imagens de domínio aberto, juntamente com um conjunto de dados sintéticos massivo gerado a partir deste método. Nossa análise empírica mostra que o MegaPairs gera dados de alta qualidade, permitindo que o recuperador multimodal supere significativamente o modelo de referência treinado em 70 vezes mais dados de conjuntos de dados existentes. Além disso, uma vez que o MegaPairs depende exclusivamente de corpora de imagens gerais e VLMs de código aberto, pode ser facilmente ampliado, possibilitando melhorias contínuas no desempenho de recuperação. Nesta etapa, produzimos mais de 26 milhões de instâncias de treinamento e treinamos vários modelos de tamanhos variados usando esses dados. Esses novos modelos alcançam desempenho de ponta sem uso de rótulos em 4 benchmarks populares de recuperação de imagens compostas (CIR) e o melhor desempenho geral nos 36 conjuntos de dados fornecidos pelo MMEB. Eles também demonstram melhorias de desempenho notáveis com ajustes adicionais posteriores. Nosso conjunto de dados produzido, modelos bem treinados e pipeline de síntese de dados serão disponibilizados publicamente para facilitar o desenvolvimento futuro deste campo.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this
field remains severely constrained by a lack of training data. In this paper,
we introduce MegaPairs, a novel data synthesis method that leverages vision
language models (VLMs) and open-domain images, together with a massive
synthetic dataset generated from this method. Our empirical analysis shows that
MegaPairs generates high-quality data, enabling the multimodal retriever to
significantly outperform the baseline model trained on 70times more data
from existing datasets. Moreover, since MegaPairs solely relies on general
image corpora and open-source VLMs, it can be easily scaled up, enabling
continuous improvements in retrieval performance. In this stage, we produced
more than 26 million training instances and trained several models of varying
sizes using this data. These new models achieve state-of-the-art zero-shot
performance across 4 popular composed image retrieval (CIR) benchmarks and the
highest overall performance on the 36 datasets provided by MMEB. They also
demonstrate notable performance improvements with additional downstream
fine-tuning. Our produced dataset, well-trained models, and data synthesis
pipeline will be made publicly available to facilitate the future development
of this field.Summary
AI-Generated Summary