Migician: Revelando a Magia da Fundamentação Livre de Multi-Imagens em Modelos de Linguagem Multimodais de Grande Escala
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Autores: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Resumo
O recente avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) melhorou significativamente sua percepção detalhada de imagens individuais e compreensão geral através de múltiplas imagens. No entanto, os MLLMs existentes ainda enfrentam desafios para alcançar um enraizamento preciso em cenários complexos com várias imagens. Para lidar com isso, primeiro exploramos um framework de Cadeia de Pensamento (CoT) que integra o enraizamento de imagens individuais com a compreensão de múltiplas imagens. Embora parcialmente eficaz, ele permanece instável e tem dificuldade em capturar informações visuais abstratas devido à sua natureza não ponta a ponta. Portanto, introduzimos o Migician, o primeiro modelo de enraizamento de múltiplas imagens capaz de realizar um enraizamento livre e preciso através de várias imagens. Para apoiar isso, apresentamos o conjunto de dados MGrounding-630k, que inclui dados para várias tarefas de enraizamento de múltiplas imagens derivadas de conjuntos de dados existentes, juntamente com dados recém-gerados de instruções de enraizamento livre. Além disso, propomos o MIG-Bench, um benchmark abrangente especificamente projetado para avaliar as capacidades de enraizamento de múltiplas imagens. Resultados experimentais demonstram que nosso modelo alcança capacidades de enraizamento de múltiplas imagens significativamente superiores, superando os melhores MLLMs existentes em 21,61% e até mesmo ultrapassando modelos muito maiores de 70B. Nosso código, modelo, conjunto de dados e benchmark são totalmente de código aberto.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.Summary
AI-Generated Summary