ChatPaper.aiChatPaper

Creation-MMBench: Bewertung kontextbewusster kreativer Intelligenz in MLLM

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

March 18, 2025
Autoren: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI

Zusammenfassung

Kreativität ist ein grundlegender Aspekt der Intelligenz, der die Fähigkeit umfasst, neuartige und angemessene Lösungen in verschiedenen Kontexten zu generieren. Während die kreativen Fähigkeiten von Large Language Models (LLMs) umfassend evaluiert wurden, bleibt die Bewertung von Multimodal Large Language Models (MLLMs) in diesem Bereich weitgehend unerforscht. Um diese Lücke zu schließen, führen wir Creation-MMBench ein, einen multimodalen Benchmark, der speziell entwickelt wurde, um die kreativen Fähigkeiten von MLLMs in realen, bildbasierten Aufgaben zu bewerten. Der Benchmark umfasst 765 Testfälle, die 51 fein abgestufte Aufgaben abdecken. Um eine rigorose Bewertung zu gewährleisten, definieren wir für jeden Testfall instanzspezifische Bewertungskriterien, die die Beurteilung sowohl der allgemeinen Antwortqualität als auch der faktischen Konsistenz mit visuellen Eingaben leiten. Experimentelle Ergebnisse zeigen, dass aktuelle Open-Source-MLLMs in kreativen Aufgaben deutlich schlechter abschneiden als proprietäre Modelle. Darüber hinaus zeigt unsere Analyse, dass visuelles Fine-Tuning die kreativen Fähigkeiten des Basis-LLMs negativ beeinflussen kann. Creation-MMBench liefert wertvolle Erkenntnisse für die Weiterentwicklung der Kreativität von MLLMs und schafft eine Grundlage für zukünftige Verbesserungen in der multimodalen generativen Intelligenz. Vollständige Daten und Evaluationscode werden unter https://github.com/open-compass/Creation-MMBench veröffentlicht.
English
Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM's creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

Summary

AI-Generated Summary

PDF442March 19, 2025