DDT: Trasformatore a Diffusione Disaccoppiata
DDT: Decoupled Diffusion Transformer
April 8, 2025
Autori: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Abstract
I transformer di diffusione hanno dimostrato una qualità di generazione notevole, sebbene richiedano iterazioni di addestramento più lunghe e numerosi passaggi di inferenza. In ogni fase di denoising, i transformer di diffusione codificano gli input rumorosi per estrarre la componente semantica a bassa frequenza e poi decodificano la frequenza più alta con moduli identici. Questo schema crea un dilemma di ottimizzazione intrinseco: la codifica della semantica a bassa frequenza richiede la riduzione delle componenti ad alta frequenza, creando una tensione tra la codifica semantica e la decodifica ad alta frequenza. Per risolvere questa sfida, proponiamo un nuovo \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), con un design disaccoppiato di un encoder di condizione dedicato per l'estrazione semantica insieme a un decoder di velocità specializzato. I nostri esperimenti rivelano che un encoder più sostanziale produce miglioramenti delle prestazioni all'aumentare delle dimensioni del modello. Per ImageNet 256x256, il nostro DDT-XL/2 raggiunge una nuova prestazione all'avanguardia di {1.31 FID}~(quasi 4 volte più veloce nella convergenza dell'addestramento rispetto ai precedenti transformer di diffusione). Per ImageNet 512x512, il nostro DDT-XL/2 raggiunge un nuovo FID all'avanguardia di 1.28. Inoltre, come utile sottoprodotto, la nostra architettura disaccoppiata migliora la velocità di inferenza consentendo la condivisione della condizione auto-referenziale tra passaggi di denoising adiacenti. Per minimizzare il degrado delle prestazioni, proponiamo un nuovo approccio di programmazione dinamica statistica per identificare le strategie di condivisione ottimali.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary