CompCap: Migliorare i Modelli Linguistici Multimodali di Grandi Dimensioni con Didascalie Composte
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Autori: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Abstract
In che misura i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) sono in grado di comprendere immagini composite? Le immagini composite (CIs) sono visivi sintetici creati unendo più elementi visivi, come grafici, poster o screenshot, anziché essere catturati direttamente da una fotocamera. Sebbene le CIs siano diffuse nelle applicazioni del mondo reale, gli sviluppi recenti dei MLLMs si sono concentrati principalmente sull'interpretazione di immagini naturali (NIs). La nostra ricerca rivela che i MLLMs attuali affrontano significativi ostacoli nel comprendere accuratamente le CIs, spesso faticando nell'estrazione di informazioni o nel compiere ragionamenti complessi basati su queste immagini. Abbiamo constatato che i dati di addestramento esistenti per le CIs sono principalmente formattati per compiti domanda-risposta (ad esempio, nei set di dati come ChartQA e ScienceQA), mentre set di dati di alta qualità immagine-didascalia, fondamentali per un allineamento robusto tra visione e linguaggio, sono disponibili solo per le NIs. Per colmare questa lacuna, presentiamo le Didascalie Composite (CompCap), un framework flessibile che sfrutta i Modelli Linguistici di Grandi Dimensioni (LLMs) e strumenti di automazione per sintetizzare CIs con didascalie accurate e dettagliate. Utilizzando CompCap, curiamo CompCap-118K, un set di dati contenente 118K coppie immagine-didascalia attraverso sei tipi di CI. Convalidiamo l'efficacia di CompCap-118K mediante il fine-tuning supervisionato dei MLLMs di tre dimensioni: xGen-MM-inst.-4B e LLaVA-NeXT-Vicuna-7B/13B. I risultati empirici mostrano che CompCap-118K migliora significativamente la comprensione delle CIs da parte dei MLLMs, generando guadagni medi del 1,7%, 2,0% e 2,9% rispettivamente su undici benchmark.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary