Migician: Svelare la Magia del Posizionamento Libero di Multi-Immagini in Modelli di Linguaggio Multimodali di Grandi Dimensioni
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Autori: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Abstract
Il recente avanzamento dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) ha migliorato significativamente la loro percezione dettagliata delle singole immagini e la comprensione generale attraverso più immagini. Tuttavia, i MLLMs esistenti affrontano ancora sfide nel raggiungere un ancoraggio preciso in scenari multi-immagine complessi. Per affrontare questo problema, esploriamo inizialmente un framework Chain-of-Thought (CoT) che integra l'ancoraggio delle singole immagini con la comprensione multi-immagine. Sebbene parzialmente efficace, rimane instabile e fatica a catturare informazioni visive astratte a causa della sua natura non end-to-end. Pertanto, presentiamo Migician, il primo modello di ancoraggio multi-immagine in grado di eseguire un ancoraggio libero e accurato attraverso più immagini. Per supportare ciò, presentiamo il dataset MGrounding-630k, che comprende dati per diversi compiti di ancoraggio multi-immagine derivati da dataset esistenti, insieme a dati di istruzioni di ancoraggio libero di nuova generazione. Inoltre, proponiamo MIG-Bench, un benchmark completo progettato specificamente per valutare le capacità di ancoraggio multi-immagine. I risultati sperimentali dimostrano che il nostro modello raggiunge capacità di ancoraggio multi-immagine significativamente superiori, superando i migliori MLLMs esistenti del 21,61% e addirittura superando modelli molto più grandi da 70 miliardi. Il nostro codice, modello, dataset e benchmark sono completamente open-source.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.Summary
AI-Generated Summary