Migician: Die Enthüllung der Magie der freiformatigen Multi-Bild-Verankerung in multimodalen großen Sprachmodellen
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
January 10, 2025
Autoren: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI
Zusammenfassung
Der jüngste Fortschritt von Multimodalen Großen Sprachmodellen (MLLMs) hat ihre feingranulare Wahrnehmung einzelner Bilder und das allgemeine Verständnis über mehrere Bilder hinweg signifikant verbessert. Allerdings stehen bestehende MLLMs immer noch vor Herausforderungen, um eine präzise Verankerung in komplexen Szenarien mit mehreren Bildern zu erreichen. Um dies anzugehen, erforschen wir zunächst ein Chain-of-Thought (CoT)-Framework, das die Verankerung einzelner Bilder mit dem Verständnis mehrerer Bilder integriert. Obwohl teilweise effektiv, bleibt es instabil und hat Schwierigkeiten, abstrakte visuelle Informationen aufgrund seiner nicht-endlichen Natur zu erfassen. Daher stellen wir Migician vor, das erste Multi-Bild-Verankerungsmodell, das in der Lage ist, freiform und präzise Verankerungen über mehrere Bilder hinweg durchzuführen. Zur Unterstützung dessen präsentieren wir den MGrounding-630k Datensatz, der Daten für mehrere Multi-Bild-Verankerungsaufgaben aus bestehenden Datensätzen sowie neu generierte freiform-Verankerungsanweisungen umfassende Daten enthält. Darüber hinaus schlagen wir MIG-Bench vor, einen umfassenden Benchmark, der speziell für die Bewertung der Fähigkeiten der Multi-Bild-Verankerung entwickelt wurde. Experimentelle Ergebnisse zeigen, dass unser Modell signifikant überlegene Fähigkeiten in der Multi-Bild-Verankerung aufweist, die die besten bestehenden MLLMs um 21,61% übertreffen und sogar deutlich größere 70B-Modelle übertreffen. Unser Code, Modell, Datensatz und Benchmark sind vollständig Open-Source.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has
significantly improved their fine-grained perception of single images and
general comprehension across multiple images. However, existing MLLMs still
face challenges in achieving precise grounding in complex multi-image
scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework
that integrates single-image grounding with multi-image comprehension. While
partially effective, it remains unstable and struggles to capture abstract
visual information due to its non-end-to-end nature. Therefore, we introduce
Migician, the first multi-image grounding model capable of performing free-form
and accurate grounding across multiple images. To support this, we present the
MGrounding-630k dataset, which comprises data for several multi-image grounding
tasks derived from existing datasets, along with newly generated free-form
grounding instruction-following data. Furthermore, we propose MIG-Bench, a
comprehensive benchmark specifically designed for evaluating multi-image
grounding capabilities. Experimental results demonstrate that our model
achieves significantly superior multi-image grounding capabilities,
outperforming the best existing MLLMs by 21.61% and even surpassing much larger
70B models. Our code, model, dataset, and benchmark are fully open-sourced.Summary
AI-Generated Summary