ChatPaper.aiChatPaper

Migician: 다중 모달 대형 언어 모델에서의 자유 형식 다중 이미지 그라운딩의 마법을 드러내다

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

January 10, 2025
저자: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun
cs.AI

초록

최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 단일 이미지의 세밀한 인식과 여러 이미지에 걸친 일반 이해력을 크게 향상시켰습니다. 그러나 기존 MLLMs는 여전히 복잡한 다중 이미지 시나리오에서 정확한 기반을 확립하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해 먼저 단일 이미지 기반을 다중 이미지 이해력과 통합하는 Chain-of-Thought (CoT) 프레임워크를 탐구합니다. 부분적으로 효과적이지만, 이는 안정성이 부족하며 추상적인 시각 정보를 포착하는 데 어려움이 있습니다. 따라서 여러 이미지에 걸쳐 자유롭고 정확한 기반을 수행할 수 있는 최초의 다중 이미지 기반 모델인 Migician을 소개합니다. 이를 지원하기 위해 기존 데이터셋에서 파생된 여러 다중 이미지 기반 작업을 위한 데이터와 새롭게 생성된 자유형 기반 지시어 따르기 데이터로 이루어진 MGrounding-630k 데이터셋을 제시합니다. 더불어, 다중 이미지 기반 능력을 평가하기 위해 특별히 설계된 포괄적인 벤치마크인 MIG-Bench를 제안합니다. 실험 결과는 우리 모델이 최고의 기존 MLLMs보다 21.61% 우수한 다중 이미지 기반 능력을 달성하며, 훨씬 더 큰 70B 모델을 능가한다는 것을 입증합니다. 우리의 코드, 모델, 데이터셋, 그리고 벤치마크는 완전히 오픈 소스로 제공됩니다.
English
The recent advancement of Multimodal Large Language Models (MLLMs) has significantly improved their fine-grained perception of single images and general comprehension across multiple images. However, existing MLLMs still face challenges in achieving precise grounding in complex multi-image scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework that integrates single-image grounding with multi-image comprehension. While partially effective, it remains unstable and struggles to capture abstract visual information due to its non-end-to-end nature. Therefore, we introduce Migician, the first multi-image grounding model capable of performing free-form and accurate grounding across multiple images. To support this, we present the MGrounding-630k dataset, which comprises data for several multi-image grounding tasks derived from existing datasets, along with newly generated free-form grounding instruction-following data. Furthermore, we propose MIG-Bench, a comprehensive benchmark specifically designed for evaluating multi-image grounding capabilities. Experimental results demonstrate that our model achieves significantly superior multi-image grounding capabilities, outperforming the best existing MLLMs by 21.61% and even surpassing much larger 70B models. Our code, model, dataset, and benchmark are fully open-sourced.

Summary

AI-Generated Summary

PDF282January 14, 2025