Kunnen MLLM's de diepe implicatie achter Chinese afbeeldingen begrijpen?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

October 17, 2024
Auteurs: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI

Samenvatting

Naarmate de mogelijkheden van Multimodale Grote Taalmodellen (MLLM's) blijven verbeteren, neemt de behoefte aan evaluatie van hogere orde capaciteiten van MLLM's toe. Er is echter een gebrek aan onderzoek dat MLLM's evalueert voor hogere orde perceptie en begrip van Chinese visuele inhoud. Om deze lacune op te vullen, introduceren we de **C**hinese **I**mage **I**mplicatie begrips **Bench**mark, **CII-Bench**, die tot doel heeft de hogere orde perceptie en begripscapaciteiten van MLLM's voor Chinese afbeeldingen te beoordelen. CII-Bench onderscheidt zich op verschillende manieren van bestaande benchmarks. Ten eerste worden afbeeldingen in CII-Bench afkomstig van het Chinese internet en handmatig beoordeeld, waarbij bijbehorende antwoorden ook handmatig worden opgesteld om de authenticiteit van de Chinese context te waarborgen. Bovendien bevat CII-Bench afbeeldingen die de Chinese traditionele cultuur vertegenwoordigen, zoals beroemde Chinese traditionele schilderijen, die diep kunnen reflecteren op het begrip van de modellen van de Chinese traditionele cultuur. Door uitgebreide experimenten op CII-Bench met meerdere MLLM's hebben we significante bevindingen gedaan. In eerste instantie wordt een aanzienlijk verschil waargenomen tussen de prestaties van MLLM's en mensen op CII-Bench. De hoogste nauwkeurigheid van MLLM's bereikt 64,4%, terwijl de menselijke nauwkeurigheid gemiddeld 78,2% bedraagt, met een indrukwekkende piek van 81,0%. Vervolgens presteren MLLM's slechter op afbeeldingen van de Chinese traditionele cultuur, wat wijst op beperkingen in hun vermogen om hoog-niveau semantiek te begrijpen en een diepgaande kennisbasis van de Chinese traditionele cultuur te missen. Ten slotte wordt opgemerkt dat de meeste modellen een verbeterde nauwkeurigheid vertonen wanneer aanwijzingen van beeldemotie worden opgenomen in de prompts. Wij geloven dat CII-Bench MLLM's in staat zal stellen een beter begrip te krijgen van Chinese semantiek en Chinese-specifieke afbeeldingen, waarmee de weg wordt vrijgemaakt naar expertkunstmatige algemene intelligentie (AGI). Ons project is openbaar beschikbaar op https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Summary

AI-Generated Summary

PDF82November 16, 2024