Diffusion-4K: Ultrahochauflösende Bildsynthese mit latenten Diffusionsmodellen
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
March 24, 2025
Autoren: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI
Zusammenfassung
In diesem Artikel stellen wir Diffusion-4K vor, ein neuartiges Framework für die direkte Synthese von ultrahochauflösenden Bildern mithilfe von Text-zu-Bild-Diffusionsmodellen. Die zentralen Fortschritte umfassen: (1) Aesthetic-4K-Benchmark: Um das Fehlen eines öffentlich verfügbaren 4K-Bildsynthese-Datensatzes zu beheben, haben wir Aesthetic-4K erstellt, einen umfassenden Benchmark für die Erzeugung ultrahochauflösender Bilder. Wir haben einen hochwertigen 4K-Datensatz mit sorgfältig ausgewählten Bildern und von GPT-4o generierten Bildunterschriften kuratiert. Zusätzlich führen wir die Metriken GLCM-Score und Kompressionsrate ein, um feine Details zu bewerten, kombiniert mit ganzheitlichen Maßnahmen wie FID, Aesthetics und CLIPScore für eine umfassende Bewertung ultrahochauflösender Bilder. (2) Wavelet-basiertes Fine-Tuning: Wir schlagen einen wavelet-basierten Fine-Tuning-Ansatz für das direkte Training mit fotorealistischen 4K-Bildern vor, der auf verschiedene latente Diffusionsmodelle anwendbar ist und dessen Wirksamkeit bei der Synthese hochdetaillierter 4K-Bilder demonstriert. Folglich erzielt Diffusion-4K beeindruckende Leistungen bei der Synthese hochwertiger Bilder und der Einhaltung von Textprompts, insbesondere wenn es von modernen großskaligen Diffusionsmodellen (z.B. SD3-2B und Flux-12B) angetrieben wird. Umfangreiche experimentelle Ergebnisse aus unserem Benchmark belegen die Überlegenheit von Diffusion-4K in der Synthese ultrahochauflösender Bilder.
English
In this paper, we present Diffusion-4K, a novel framework for direct
ultra-high-resolution image synthesis using text-to-image diffusion models. The
core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence
of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K,
a comprehensive benchmark for ultra-high-resolution image generation. We
curated a high-quality 4K dataset with carefully selected images and captions
generated by GPT-4o. Additionally, we introduce GLCM Score and Compression
Ratio metrics to evaluate fine details, combined with holistic measures such as
FID, Aesthetics and CLIPScore for a comprehensive assessment of
ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a
wavelet-based fine-tuning approach for direct training with photorealistic 4K
images, applicable to various latent diffusion models, demonstrating its
effectiveness in synthesizing highly detailed 4K images. Consequently,
Diffusion-4K achieves impressive performance in high-quality image synthesis
and text prompt adherence, especially when powered by modern large-scale
diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results
from our benchmark demonstrate the superiority of Diffusion-4K in
ultra-high-resolution image synthesis.Summary
AI-Generated Summary