MMIE: 대규모 비전-언어 모델을 위한 대규모 다중 모달 교차 이해 벤치마크
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
October 14, 2024
저자: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI
초록
상호 교차된 다중 모달 이해 및 생성은 모델이 이미지와 텍스트를 임의의 순서로 생성하고 해석할 수 있도록 하는 것으로, 다중 모달 학습에서 중요한 영역이 되어왔습니다. 중요한 발전이 있었음에도 불구하고, 이 능력의 평가는 여전히 충분하지 않습니다. 기존의 벤치마크는 데이터 규모, 범위 및 평가 깊이에서 제한사항을 가지며, 현재의 평가 메트릭은 종종 비용이 많이 들거나 편향되어 있어 실용적인 응용에 신뢰성이 부족합니다. 이러한 도전에 대응하기 위해, 우리는 LVLMs(Large Vision-Language Models)에서 상호 교차된 다중 모달 이해 및 생성을 평가하기 위한 대규모 지식 중심 벤치마크인 MMIE를 소개합니다. MMIE는 수학, 코딩, 물리학, 문학, 건강, 예술 등을 포함한 3가지 범주, 12개의 분야 및 102개의 하위 분야를 아우르는 20,000개의 신중하게 선별된 다중 모달 쿼리로 구성되어 있습니다. 이는 상호 교차된 입력과 출력을 지원하며, 다양한 능력을 평가하기 위해 객관식과 주관식 질문 형식을 혼합하여 제공합니다. 더불어, 우리는 신뢰할 수 있는 자동화된 평가 메트릭을 제안하며, 이는 인간이 주석을 단 데이터와 체계적인 평가 기준으로 세밀하게 조정된 점수 모델을 활용하여 편향을 줄이고 평가 정확도를 향상시키는 것을 목표로 합니다. 광범위한 실험을 통해 우리의 벤치마크와 메트릭이 상호 교차된 LVLMs의 포괄적인 평가를 제공하는 데 효과적임을 입증합니다. 구체적으로, 우리는 여덟 개의 LVLMs를 평가하여, 최고의 모델조차도 개선할 여지가 상당히 있다는 것을 밝혀냈으며, 대부분이 중간 결과만을 달성했습니다. 우리는 MMIE가 상호 교차된 LVLMs의 발전을 더욱 촉진할 것으로 믿습니다. 우리의 벤치마크와 코드는 https://mmie-bench.github.io/에서 공개되어 있습니다.
English
Interleaved multimodal comprehension and generation, enabling models to
produce and interpret both images and text in arbitrary sequences, have become
a pivotal area in multimodal learning. Despite significant advancements, the
evaluation of this capability remains insufficient. Existing benchmarks suffer
from limitations in data scale, scope, and evaluation depth, while current
evaluation metrics are often costly or biased, lacking in reliability for
practical applications. To address these challenges, we introduce MMIE, a
large-scale knowledge-intensive benchmark for evaluating interleaved multimodal
comprehension and generation in Large Vision-Language Models (LVLMs). MMIE
comprises 20K meticulously curated multimodal queries, spanning 3 categories,
12 fields, and 102 subfields, including mathematics, coding, physics,
literature, health, and arts. It supports both interleaved inputs and outputs,
offering a mix of multiple-choice and open-ended question formats to evaluate
diverse competencies. Moreover, we propose a reliable automated evaluation
metric, leveraging a scoring model fine-tuned with human-annotated data and
systematic evaluation criteria, aimed at reducing bias and improving evaluation
accuracy. Extensive experiments demonstrate the effectiveness of our benchmark
and metrics in providing a comprehensive evaluation of interleaved LVLMs.
Specifically, we evaluate eight LVLMs, revealing that even the best models show
significant room for improvement, with most achieving only moderate results. We
believe MMIE will drive further advancements in the development of interleaved
LVLMs. We publicly release our benchmark and code in
https://mmie-bench.github.io/.Summary
AI-Generated Summary