ChatPaper.aiChatPaper

다중 모드 대형 언어 모델을 위한 다중 단계 개념 주석 탐색

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

December 8, 2024
저자: Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
cs.AI

초록

다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 시각-언어 작업에서 뛰어난 성과를 거두는데, (예: 이미지 캡션)에 대해 미세한 개념 주석을 사용하여 사전 훈련을 수행함으로써 독립적으로 뛰어납니다. 우리는 미세한 개념 주석(예: 객체 레이블 및 객체 영역)을 통합함으로써 성능을 더욱 향상시킬 것으로 가정하며, 두 데이터 세트의 세분성은 개념 표현의 폭과 깊이 측면에서 서로 보완한다고 가정합니다. 우리는 MLLMs를 위한 다중 모달 다중 세분 개념 주석(Multimodal Multi-Grained Concept annotations, MMGiC)을 특징으로 하는 새로운 데이터셋을 소개합니다. MMGiC를 구축함에 있어서, 우리는 다양한 데이터 조합이 다중 모달 이해와 생성에 미치는 영향을 탐구합니다. 우리의 분석 결과, 다중 세분 개념 주석이 구조화된 템플릿과 일반 MLLM 프레임워크 하에서 통합되고 보완됨을 보여줍니다. 우리는 MMGiC가 MLLMs가 개념을 더 잘 찾고 학습하도록 도와주는 잠재력을 명확히 탐구하고 시연합니다. 또한 POPE 및 SEED-Bench에서 이미지-캡션 데이터만으로는 달성할 수 없는 3.95% 및 2.34%의 절대적인 개선을 이루어낸 적절한 조합을 통해 MMGiC와 이미지-캡션 데이터 간의 공정한 비교 및 효과적인 협력을 조사함으로써 우리의 가설을 검증합니다. 코드, 데이터 및 모델은 https://github.com/LooperXX/MMGiC에서 제공될 예정입니다.
English
Multimodal Large Language Models (MLLMs) excel in vision--language tasks by pre-training solely on coarse-grained concept annotations (e.g., image captions). We hypothesize that integrating fine-grained concept annotations (e.g., object labels and object regions) will further improve performance, as both data granularities complement each other in terms of breadth and depth in concept representation. We introduce a new dataset featuring Multimodal Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we explore the impact of different data recipes on multimodal comprehension and generation. Our analyses reveal that multi-grained concept annotations integrate and complement each other, under our structured template and a general MLLM framework. We clearly explore and demonstrate the potential of MMGiC to help MLLMs better locate and learn concepts, aligning vision and language at multiple granularities. We further validate our hypothesis by investigating the fair comparison and effective collaboration between MMGiC and image--caption data on 12 multimodal comprehension and generation benchmarks, e.g., their appropriate combination achieve 3.95% and 2.34% absolute improvements over image--caption data alone on POPE and SEED-Bench. Code, data and models will be available at https://github.com/LooperXX/MMGiC.

Summary

AI-Generated Summary

PDF162December 10, 2024