Kunnen MLLM's de diepe implicatie achter Chinese afbeeldingen begrijpen?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Auteurs: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Samenvatting
Naarmate de mogelijkheden van Multimodale Grote Taalmodellen (MLLM's) blijven verbeteren, neemt de behoefte aan evaluatie van hogere orde capaciteiten van MLLM's toe. Er is echter een gebrek aan onderzoek dat MLLM's evalueert voor hogere orde perceptie en begrip van Chinese visuele inhoud. Om deze lacune op te vullen, introduceren we de **C**hinese **I**mage **I**mplicatie begrips **Bench**mark, **CII-Bench**, die tot doel heeft de hogere orde perceptie en begripscapaciteiten van MLLM's voor Chinese afbeeldingen te beoordelen. CII-Bench onderscheidt zich op verschillende manieren van bestaande benchmarks. Ten eerste worden afbeeldingen in CII-Bench afkomstig van het Chinese internet en handmatig beoordeeld, waarbij bijbehorende antwoorden ook handmatig worden opgesteld om de authenticiteit van de Chinese context te waarborgen. Bovendien bevat CII-Bench afbeeldingen die de Chinese traditionele cultuur vertegenwoordigen, zoals beroemde Chinese traditionele schilderijen, die diep kunnen reflecteren op het begrip van de modellen van de Chinese traditionele cultuur. Door uitgebreide experimenten op CII-Bench met meerdere MLLM's hebben we significante bevindingen gedaan. In eerste instantie wordt een aanzienlijk verschil waargenomen tussen de prestaties van MLLM's en mensen op CII-Bench. De hoogste nauwkeurigheid van MLLM's bereikt 64,4%, terwijl de menselijke nauwkeurigheid gemiddeld 78,2% bedraagt, met een indrukwekkende piek van 81,0%. Vervolgens presteren MLLM's slechter op afbeeldingen van de Chinese traditionele cultuur, wat wijst op beperkingen in hun vermogen om hoog-niveau semantiek te begrijpen en een diepgaande kennisbasis van de Chinese traditionele cultuur te missen. Ten slotte wordt opgemerkt dat de meeste modellen een verbeterde nauwkeurigheid vertonen wanneer aanwijzingen van beeldemotie worden opgenomen in de prompts. Wij geloven dat CII-Bench MLLM's in staat zal stellen een beter begrip te krijgen van Chinese semantiek en Chinese-specifieke afbeeldingen, waarmee de weg wordt vrijgemaakt naar expertkunstmatige algemene intelligentie (AGI). Ons project is openbaar beschikbaar op https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary