MME-Survey: 다중 모달 LLMs의 평가에 관한 포괄적인 조사
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
November 22, 2024
저자: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI
초록
인공 일반 지능(AGI)의 주요 방향으로서, 다중 모달 대규모 언어 모델(MLLMs)은 산업과 학계 양쪽에서 증가된 관심을 받고 있습니다. 사전 훈련된 LLMs를 기반으로 구축된 이 모델군은 다중 모달 지각 및 추론 능력을 발전시켜, 흐름도를 바탕으로 코드를 작성하거나 이미지를 기반으로 이야기를 창작하는 등 인상적인 능력을 갖추고 있습니다. 개발 과정에서는 모델을 개선하기 위한 직관적인 피드백과 지침을 제공하는 평가가 중요합니다. 이미지 분류와 같은 단일 작업에만 유리한 전통적인 훈련-평가-테스트 패러다임과는 달리, MLLMs의 다양성은 다양한 새로운 벤치마크와 평가 방법의 등장을 촉발시켰습니다. 본 논문에서는 MLLM 평가의 포괄적인 조사를 제시하고, 다음 네 가지 측면을 논의합니다: 1) 평가 능력에 따라 요약된 벤치마크 유형, 기초 능력, 모델 자가 분석, 확장된 응용 프로그램을 포함하고; 2) 데이터 수집, 주석, 주의사항으로 이루어진 벤치마크 구축의 전형적인 과정; 3) 심사, 측정 항목, 도구로 이루어진 체계적인 평가 방식; 4) 다음 벤치마크에 대한 전망. 본 연구는 연구자들이 다양한 요구에 따라 MLLMs를 효과적으로 평가하는 방법을 쉽게 파악하고, 더 나은 평가 방법을 영감을 주어 MLLM 연구의 진전을 이끌기 위해 목표를 두고 있습니다.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal
Large Language Models (MLLMs) have garnered increased attention from both
industry and academia. Building upon pre-trained LLMs, this family of models
further develops multimodal perception and reasoning capabilities that are
impressive, such as writing code given a flow chart or creating stories based
on an image. In the development process, evaluation is critical since it
provides intuitive feedback and guidance on improving models. Distinct from the
traditional train-eval-test paradigm that only favors a single task like image
classification, the versatility of MLLMs has spurred the rise of various new
benchmarks and evaluation methods. In this paper, we aim to present a
comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the
summarised benchmarks types divided by the evaluation capabilities, including
foundation capabilities, model self-analysis, and extented applications; 2) the
typical process of benchmark counstruction, consisting of data collection,
annotation, and precautions; 3) the systematic evaluation manner composed of
judge, metric, and toolkit; 4) the outlook for the next benchmark. This work
aims to offer researchers an easy grasp of how to effectively evaluate MLLMs
according to different needs and to inspire better evaluation methods, thereby
driving the progress of MLLM research.Summary
AI-Generated Summary