CompCap: 복합 캡션을 활용한 다중 모달 대규모 언어 모델 개선
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
저자: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
초록
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 합성 이미지(composite images, CIs)를 얼마나 잘 이해할 수 있는지에 대해 어떻게 평가할 수 있을까? CIs는 카메라로 직접 촬영되는 것이 아니라 차트, 포스터 또는 스크린샷과 같은 여러 시각적 요소를 병합하여 생성된 합성 시각 자료입니다. CIs는 현실 세계 응용 프로그램에서 흔히 볼 수 있지만, 최근 MLLM 개발은 주로 자연 이미지(NIs) 해석에 초점을 맞추고 있습니다. 우리의 연구 결과, 현재 MLLMs는 CIs를 정확하게 이해하는 데 상당한 어려움을 겪으며 이러한 이미지를 기반으로 정보를 추출하거나 복잡한 추론을 수행하는 데 어려움을 겪고 있습니다. 우리는 CIs에 대한 기존 훈련 데이터가 대부분 질문-답변 작업을 위해 형식화되어 있음을 발견했습니다(예: ChartQA 및 ScienceQA와 같은 데이터셋), 반면 강력한 비전-언어 정렬을 위한 고품질 이미지 캡션 데이터셋은 NIs에만 사용 가능합니다. 이 간극을 메우기 위해 우리는 Large Language Models (LLMs)와 자동화 도구를 활용하는 유연한 프레임워크인 Composite Captions (CompCap)을 소개합니다. CompCap을 사용하여 6가지 CI 유형을 포함하는 118,000개의 이미지-캡션 쌍을 포함하는 데이터셋인 CompCap-118K를 선별합니다. 우리는 CompCap-118K의 효과를 검증하기 위해 세 가지 크기의 MLLMs(xGen-MM-inst.-4B 및 LLaVA-NeXT-Vicuna-7B/13B)를 지도 학습을 통해 세밀하게 조정합니다. 경험적 결과는 CompCap-118K가 CIs에 대한 MLLMs의 이해를 크게 향상시키며, 각각 11개의 벤치마크에서 평균적으로 1.7%, 2.0%, 2.9%의 향상을 제공한다는 것을 보여줍니다.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary