IMAGINE-E: Evaluatie van Beeldgeneratie-Intelligentie van Toonaangevende Tekst-naar-Beeld Modellen
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Auteurs: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Samenvatting
Met de snelle ontwikkeling van diffusiemodellen hebben tekst-naar-afbeelding (T2I) modellen aanzienlijke vooruitgang geboekt, waarbij ze indrukwekkende vaardigheden hebben laten zien op het gebied van prompt opvolgen en afbeeldingsgeneratie. Onlangs gelanceerde modellen zoals FLUX.1 en Ideogram2.0, samen met anderen zoals Dall-E3 en Stable Diffusion 3, hebben uitzonderlijke prestaties aangetoond bij verschillende complexe taken, waardoor vragen rijzen over de vraag of T2I-modellen zich naar algemeen toepasbare toepassingen bewegen. Naast traditionele afbeeldingsgeneratie vertonen deze modellen capaciteiten over een scala aan domeinen, waaronder controleerbare generatie, afbeeldingsbewerking, video, audio, 3D en bewegingsgeneratie, evenals computervisietaken zoals semantische segmentatie en diepteschatting. Huidige evaluatiekaders zijn echter ontoereikend om de prestaties van deze modellen over uitbreidende domeinen uitgebreid te beoordelen. Om deze modellen grondig te evalueren, hebben we IMAGINE-E ontwikkeld en zes prominente modellen getest: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 en Jimeng. Onze evaluatie is verdeeld in vijf belangrijke domeinen: gestructureerde outputgeneratie, realisme en fysieke consistentie, generatie van specifieke domeinen, generatie van uitdagende scenario's en taken voor het maken van meerdere stijlen. Deze uitgebreide beoordeling belicht de sterke en zwakke punten van elk model, met name de uitstekende prestaties van FLUX.1 en Ideogram2.0 bij gestructureerde en specifieke domeintaken, waarbij de groeiende toepassingen en potentie van T2I-modellen als fundamentele AI-tools worden benadrukt. Deze studie biedt waardevolle inzichten in de huidige stand en toekomstige koers van T2I-modellen naarmate ze evolueren naar algemeen bruikbaarheid. Evaluatiescripts zullen worden vrijgegeven op https://github.com/jylei16/Imagine-e.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary