MME-CoT: 추론 품질, 견고성 및 효율성을 위한 대규모 다중모달 모델에서 사고 체인의 벤치마킹
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
February 13, 2025
저자: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li
cs.AI
초록
질문에 Chain-of-Thought (CoT)로 답변하는 것은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 현저히 향상시켰으나, 대형 다중 모달 모델(Large Multimodal Models, LMMs)에 미치는 영향은 아직 체계적인 평가와 심층 조사가 부족하다. 본 논문에서는 LMMs의 CoT 추론 성능을 평가하는 전문 벤치마크인 MME-CoT를 소개하며, 수학, 과학, OCR, 논리, 시공간, 일반 장면 등 6개 도메인을 포괄한다. 이 영역에서의 첫 포괄적인 연구로, 추론 품질, 견고성, 효율성을 세밀한 수준에서 평가하는 세 가지 새로운 메트릭을 포함한 철저한 평가 스위트를 제안한다. 선별된 고품질 데이터와 독특한 평가 전략을 활용하여 최첨단 LMMs를 철저히 분석하고, 여러 중요한 통찰을 발견한다: 1) 반사 메커니즘을 갖춘 모델은 우수한 CoT 품질을 보여주며, Kimi k1.5가 GPT-4o를 능가하고 가장 높은 품질 결과를 보여준다; 2) CoT 프롬프팅은 종종 지각 중심 작업에서 LMM 성능을 저하시키며, 잠재적으로 해로운 과도한 사고 행동을 시사한다; 그리고 3) CoT 품질이 높더라도, 반사를 갖춘 LMMs는 일반 응답 및 자가 수정 단계에서 상당한 비효율성을 나타낸다. MME-CoT가 LMMs의 다중 모달 추론 발전을 위한 기반이 되기를 희망한다. 프로젝트 페이지: https://mmecot.github.io/
English
Answering questions with Chain-of-Thought (CoT) has significantly enhanced
the reasoning capabilities of Large Language Models (LLMs), yet its impact on
Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth
investigation. In this paper, we introduce MME-CoT, a specialized benchmark
evaluating the CoT reasoning performance of LMMs, spanning six domains: math,
science, OCR, logic, space-time, and general scenes. As the first comprehensive
study in this area, we propose a thorough evaluation suite incorporating three
novel metrics that assess the reasoning quality, robustness, and efficiency at
a fine-grained level. Leveraging curated high-quality data and a unique
evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs,
uncovering several key insights: 1) Models with reflection mechanism
demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and
demonstrating the highest quality results; 2) CoT prompting often degrades LMM
performance on perception-heavy tasks, suggesting a potentially harmful
overthinking behavior; and 3) Although the CoT quality is high, LMMs with
reflection exhibit significant inefficiency in both normal response and
self-correction phases. We hope MME-CoT serves as a foundation for advancing
multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/Summary
AI-Generated Summary