ChatPaper.aiChatPaper

MM-IQ: 다중 모달 모델에서 인간과 유사한 추상화와 추론 능력을 벤치마킹하기

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

February 2, 2025
저자: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI

초록

지능 지수 테스트는 인간의 인지 능력을 평가하는 데 기본적인 방법론으로 사용되어 왔으며, 언어적 배경, 언어 능력 또는 도메인 특정 지식과 분리하여 추상화와 추론의 핵심 역량을 분리하기 위해 고의적으로 작용합니다. 그러나 현재 인공 지능 연구는 다중 모달 시스템에서 이러한 핵심 인지 차원을 양적화하는 체계적인 기준이 부족합니다. 이 중요한 공백을 해결하기 위해 우리는 8가지 다른 추론 패러다임을 포괄하는 2,710개의 세심하게 선별된 테스트 항목으로 이루어진 MM-IQ라는 포괄적인 평가 프레임워크를 제안합니다. 주요 오픈 소스 및 프로프리테러리 다중 모달 모델의 체계적인 평가를 통해, 우리의 벤치마크는 놀라운 한계를 드러냅니다: 최첨단 아키텍처조차 무작위 기회(27.49% 대 25% 기준 정확도)에 비해 약간 우수한 성능만을 달성합니다. 이 상당한 성능 격차는 현재 다중 모달 시스템이 기본적인 인간 추론 능력을 근사하는 데 불충분하다는 점을 강조하며, 이 인지적 격차를 메우기 위한 패러다임 변화적인 발전의 필요성을 강조합니다.
English
IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

Summary

AI-Generated Summary

PDF232February 4, 2025