Diffusion-4K: Sintesi di immagini a risoluzione ultra-elevata con modelli di diffusione latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
March 24, 2025
Autori: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI
Abstract
In questo articolo, presentiamo Diffusion-4K, un nuovo framework per la sintesi diretta di immagini a risoluzione ultra-elevata utilizzando modelli di diffusione testo-immagine. I progressi principali includono: (1) Aesthetic-4K Benchmark: per colmare l'assenza di un dataset pubblico per la sintesi di immagini 4K, abbiamo costruito Aesthetic-4K, un benchmark completo per la generazione di immagini a risoluzione ultra-elevata. Abbiamo curato un dataset 4K di alta qualità con immagini e didascalie selezionate accuratamente e generate da GPT-4o. Inoltre, introduciamo le metriche GLCM Score e Compression Ratio per valutare i dettagli fini, combinate con misure olistiche come FID, Aesthetics e CLIPScore per una valutazione completa delle immagini a risoluzione ultra-elevata. (2) Fine-tuning basato su wavelet: proponiamo un approccio di fine-tuning basato su wavelet per l'addestramento diretto con immagini fotorealistiche 4K, applicabile a vari modelli di diffusione latente, dimostrandone l'efficacia nella sintesi di immagini 4K altamente dettagliate. Di conseguenza, Diffusion-4K raggiunge prestazioni impressionanti nella sintesi di immagini di alta qualità e nell'aderenza ai prompt testuali, specialmente quando alimentato da moderni modelli di diffusione su larga scala (ad esempio, SD3-2B e Flux-12B). I risultati sperimentali estensivi del nostro benchmark dimostrano la superiorità di Diffusion-4K nella sintesi di immagini a risoluzione ultra-elevata.
English
In this paper, we present Diffusion-4K, a novel framework for direct
ultra-high-resolution image synthesis using text-to-image diffusion models. The
core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence
of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K,
a comprehensive benchmark for ultra-high-resolution image generation. We
curated a high-quality 4K dataset with carefully selected images and captions
generated by GPT-4o. Additionally, we introduce GLCM Score and Compression
Ratio metrics to evaluate fine details, combined with holistic measures such as
FID, Aesthetics and CLIPScore for a comprehensive assessment of
ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a
wavelet-based fine-tuning approach for direct training with photorealistic 4K
images, applicable to various latent diffusion models, demonstrating its
effectiveness in synthesizing highly detailed 4K images. Consequently,
Diffusion-4K achieves impressive performance in high-quality image synthesis
and text prompt adherence, especially when powered by modern large-scale
diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results
from our benchmark demonstrate the superiority of Diffusion-4K in
ultra-high-resolution image synthesis.Summary
AI-Generated Summary