ChatPaper.aiChatPaper

Sehe ich für dich wie eine `Katze.n.01` aus? Ein Benchmark für die taxonomische Bildgenerierung

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

March 13, 2025
Autoren: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI

Zusammenfassung

Diese Arbeit untersucht die Machbarkeit der Verwendung von Text-zu-Bild-Modellen in einem Zero-Shot-Setup zur Generierung von Bildern für Taxonomie-Konzepte. Während textbasierte Methoden zur Anreicherung von Taxonomien gut etabliert sind, bleibt das Potenzial der visuellen Dimension unerforscht. Um dies zu adressieren, schlagen wir einen umfassenden Benchmark für die Taxonomie-Bildgenerierung vor, der die Fähigkeiten von Modellen bewertet, Taxonomie-Konzepte zu verstehen und relevante, hochwertige Bilder zu generieren. Der Benchmark umfasst Common-Sense- und zufällig ausgewählte WordNet-Konzepte sowie die von LLM generierten Vorhersagen. Die 12 Modelle werden anhand von 9 neuartigen, taxonomiebezogenen Text-zu-Bild-Metriken und menschlichem Feedback bewertet. Darüber hinaus führen wir erstmals eine paarweise Bewertung mit GPT-4-Feedback für die Bildgenerierung ein. Die experimentellen Ergebnisse zeigen, dass die Rangfolge der Modelle sich signifikant von Standard-T2I-Aufgaben unterscheidet. Playground-v2 und FLUX schneiden durchweg über alle Metriken und Teilmengen hinweg besser ab, während der retrieverbasierte Ansatz schlecht abschneidet. Diese Erkenntnisse unterstreichen das Potenzial zur Automatisierung der Kuratierung strukturierter Datenressourcen.
English
This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models' abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.

Summary

AI-Generated Summary

PDF112March 14, 2025