MEGA-Bench: 500개 이상의 실제 과제로 다중 모달 평가 확장
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
October 14, 2024
저자: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
cs.AI
초록
우리는 MEGA-Bench를 제시합니다. 이는 500개 이상의 실제 과제에 대한 다중 모달 평가를 확장하여 최종 사용자의 매우 다양한 일상적인 사용 사례를 다룹니다. 우리의 목표는 다양하고 풍부한 다중 모달 과제 집합을 커버하는 고품질 데이터 샘플을 최적화하면서 비용 효율적이고 정확한 모델 평가를 가능하게 하는 것입니다. 특히, 우리는 16명의 전문 어노테이터로부터 8,000개 이상의 샘플을 포함하는 505개의 현실적인 과제를 수집하여 다중 모달 과제 공간을 철저히 다루었습니다. MMMU, MMBench, MMT-Bench와 같은 표준 다중 선택 문제로 이러한 문제들을 통합하는 대신, 우리는 숫자, 구, 코드, \LaTeX, 좌표, JSON, 자유 형식 등과 같은 다양한 출력 형식을 포용합니다. 이러한 형식을 수용하기 위해 우리는 이러한 과제를 평가하기 위해 40가지 이상의 메트릭을 개발했습니다. 기존의 벤치마크와 달리, MEGA-Bench는 다양한 차원(예: 응용 프로그램, 입력 유형, 출력 형식, 기술)에 걸쳐 세밀한 능력 보고서를 제공하여 사용자가 모델 능력을 심층적으로 상호 작용하고 시각화할 수 있도록 합니다. 우리는 MEGA-Bench에서 다양한 최첨단 비전-언어 모델을 평가하여 이러한 차원을 통해 그들의 능력을 이해합니다.
English
We present MEGA-Bench, an evaluation suite that scales multimodal evaluation
to over 500 real-world tasks, to address the highly heterogeneous daily use
cases of end users. Our objective is to optimize for a set of high-quality data
samples that cover a highly diverse and rich set of multimodal tasks, while
enabling cost-effective and accurate model evaluation. In particular, we
collected 505 realistic tasks encompassing over 8,000 samples from 16 expert
annotators to extensively cover the multimodal task space. Instead of unifying
these problems into standard multi-choice questions (like MMMU, MMBench, and
MMT-Bench), we embrace a wide range of output formats like numbers, phrases,
code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats,
we developed over 40 metrics to evaluate these tasks. Unlike existing
benchmarks, MEGA-Bench offers a fine-grained capability report across multiple
dimensions (e.g., application, input type, output format, skill), allowing
users to interact with and visualize model capabilities in depth. We evaluate a
wide variety of frontier vision-language models on MEGA-Bench to understand
their capabilities across these dimensions.Summary
AI-Generated Summary