ChatPaper.aiChatPaper

WISE: Eine weltwissensbasierte semantische Bewertung für die Text-zu-Bild-Generierung

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

March 10, 2025
Autoren: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI

Zusammenfassung

Text-to-Image (T2I)-Modelle sind in der Lage, hochwertige künstlerische Kreationen und visuelle Inhalte zu generieren. Bisher konzentrieren sich bestehende Forschungsarbeiten und Bewertungsstandards jedoch hauptsächlich auf Bildrealismus und oberflächliche Text-Bild-Ausrichtung, wobei eine umfassende Bewertung des komplexen semantischen Verständnisses und der Integration von Weltwissen in der Text-zu-Bild-Generierung fehlt. Um diese Herausforderung zu bewältigen, schlagen wir WISE vor, den ersten Benchmark, der speziell für die weltwissensbasierte semantische Bewertung entwickelt wurde. WISE geht über die einfache Wort-Pixel-Zuordnung hinaus, indem es Modelle mit 1000 sorgfältig gestalteten Prompts aus 25 Teilbereichen in kulturellem Allgemeinwissen, räumlich-zeitlichem Denken und Naturwissenschaften konfrontiert. Um die Grenzen des traditionellen CLIP-Metriken zu überwinden, führen wir WiScore ein, eine neuartige quantitative Metrik zur Bewertung der Wissens-Bild-Ausrichtung. Durch umfassende Tests von 20 Modellen (10 dedizierte T2I-Modelle und 10 einheitliche multimodale Modelle) mit 1.000 strukturierten Prompts aus 25 Teilbereichen zeigen unsere Ergebnisse erhebliche Einschränkungen in ihrer Fähigkeit, Weltwissen effektiv in die Bildgenerierung zu integrieren und anzuwenden. Dies unterstreicht kritische Wege zur Verbesserung der Wissensintegration und -anwendung in der nächsten Generation von T2I-Modellen. Code und Daten sind unter https://github.com/PKU-YuanGroup/WISE verfügbar.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

Summary

AI-Generated Summary

PDF41March 11, 2025