D^2iT: Trasformatore Dinamico a Diffusione per la Generazione Precisa di Immagini
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Autori: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Abstract
I modelli di diffusione sono ampiamente riconosciuti per la loro capacità di generare immagini ad alta fedeltà. Nonostante le eccellenti prestazioni e scalabilità dell'architettura Diffusion Transformer (DiT), essa applica una compressione fissa su diverse regioni dell'immagine durante il processo di diffusione, ignorando le naturali variazioni nella densità di informazione presenti in queste regioni. Tuttavia, una compressione elevata limita il realismo locale, mentre una compressione ridotta aumenta la complessità computazionale e compromette la coerenza globale, influenzando infine la qualità delle immagini generate. Per affrontare queste limitazioni, proponiamo di comprimere dinamicamente diverse regioni dell'immagine riconoscendo l'importanza di ciascuna regione, e introduciamo un nuovo framework a due stadi progettato per migliorare l'efficacia e l'efficienza della generazione di immagini: (1) Il Dynamic VAE (DVAE) nella prima fase utilizza un encoder gerarchico per codificare diverse regioni dell'immagine a diversi tassi di downsampling, adattati alle loro specifiche densità di informazione, fornendo così codici latenti più accurati e naturali per il processo di diffusione. (2) Il Dynamic Diffusion Transformer (D^2iT) nella seconda fase genera immagini prevedendo il rumore multi-granulare, composto da rumore a grana grossa (meno codici latenti nelle regioni uniformi) e a grana fine (più codici latenti nelle regioni dettagliate), attraverso una combinazione innovativa del Dynamic Grain Transformer e del Dynamic Content Transformer. La strategia che combina la previsione approssimativa del rumore con la correzione delle regioni dettagliate raggiunge un'unione tra coerenza globale e realismo locale. Esperimenti completi su vari task di generazione convalidano l'efficacia del nostro approccio. Il codice sarà rilasciato su https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary