IMAGINE-E: Bewertung der Bildgenerationsintelligenz von State-of-the-art Text-zu-Bild-Modellen
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Autoren: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Zusammenfassung
Mit der raschen Entwicklung von Diffusionsmodellen haben Text-zu-Bild (T2I)-Modelle signifikante Fortschritte gemacht und beeindruckende Fähigkeiten in der prompten Verfolgung und Bildgenerierung gezeigt. Kürzlich eingeführte Modelle wie FLUX.1 und Ideogram2.0 sowie andere wie Dall-E3 und Stable Diffusion 3 haben außergewöhnliche Leistungen bei verschiedenen komplexen Aufgaben gezeigt und Fragen aufgeworfen, ob T2I-Modelle sich in Richtung allgemeiner Anwendbarkeit bewegen. Über die traditionelle Bildgenerierung hinaus zeigen diese Modelle Fähigkeiten in verschiedenen Bereichen, darunter kontrollierte Generierung, Bildbearbeitung, Video, Audio, 3D- und Bewegungsgenerierung sowie Computer Vision-Aufgaben wie semantische Segmentierung und Tiefenschätzung. Allerdings sind die aktuellen Bewertungsrahmen unzureichend, um die Leistung dieser Modelle umfassend über expandierende Bereiche zu bewerten. Um diese Modelle gründlich zu bewerten, haben wir IMAGINE-E entwickelt und sechs prominente Modelle getestet: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 und Jimeng. Unsere Bewertung ist in fünf Schlüsselbereiche unterteilt: strukturierte Ausgabegenerierung, Realismus und physikalische Konsistenz, spezifische Bereichsgenerierung, Generierung herausfordernder Szenarien und Multistil-Erstellungsaufgaben. Diese umfassende Bewertung hebt die Stärken und Grenzen jedes Modells hervor, insbesondere die herausragende Leistung von FLUX.1 und Ideogram2.0 bei strukturierten und spezifischen Bereichsaufgaben, was die zunehmenden Anwendungen und das Potenzial von T2I-Modellen als grundlegende KI-Werkzeuge unterstreicht. Diese Studie liefert wertvolle Einblicke in den aktuellen Stand und die zukünftige Entwicklung von T2I-Modellen, während sie sich in Richtung allgemeiner Verwendbarkeit entwickeln. Bewertungsskripte werden unter https://github.com/jylei16/Imagine-e veröffentlicht.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary