MLLMs가 중국 이미지의 심층적 함의를 이해할 수 있을까요?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
저자: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
초록
다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 능력이 계속 향상되면, MLLMs의 고차 능력 평가 필요성이 증가하고 있습니다. 그러나 중국 시각 콘텐츠의 고차 인식과 이해를 평가하는 연구가 부족합니다. 이 간극을 메우기 위해 **중국 이미지 함축 이해 벤치마크**인 **CII-Bench**를 소개합니다. CII-Bench는 중국 이미지에 대한 MLLMs의 고차 인식 및 이해 능력을 평가하는 것을 목표로 합니다. CII-Bench는 기존 벤치마크와 비교했을 때 여러 측면에서 뛰어납니다. 먼저 중국 컨텍스트의 신뢰성을 보장하기 위해 CII-Bench의 이미지는 중국 인터넷에서 수집되고 수동으로 검토되며, 해당 답변도 수동으로 제작됩니다. 또한 CII-Bench는 유명한 중국 전통 회화와 같은 중국 전통 문화를 대표하는 이미지를 포함하여 모델이 중국 전통 문화를 얼마나 잘 이해하는지 깊게 반영할 수 있습니다. 다양한 MLLMs에서 CII-Bench를 통한 포괄적인 실험을 통해 중요한 발견을 했습니다. 먼저, MLLMs의 성능과 인간의 성능 사이에 상당한 격차가 관찰되었습니다. MLLMs의 최고 정확도는 64.4%로, 인간의 정확도는 평균 78.2%로, 최고치는 인상적인 81.0%입니다. 이어서, MLLMs는 중국 전통 문화 이미지에서 성능이 떨어지며, 고수준 의미를 이해하고 중국 전통 문화에 대한 깊은 지식 베이스가 부족한 한계를 시사합니다. 마지막으로, 대부분의 모델이 이미지 감정 힌트를 프롬프트에 통합할 때 정확도가 향상되는 것이 관찰되었습니다. CII-Bench가 MLLMs에게 중국어 의미론과 중국 특정 이미지에 대한 더 나은 이해를 제공하여 전문가 수준의 인공 일반 지능(AGI)으로 나아가는 과정을 촉진할 것으로 믿습니다. 저희 프로젝트는 https://cii-bench.github.io/에서 공개되어 있습니다.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary