Diffusione FAM: Modulazione di Frequenza e Attenzione per la Generazione di Immagini ad Alta Risoluzione con Diffusione Stabile
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
Autori: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Abstract
I modelli di diffusione sono efficaci nella generazione di immagini di alta qualità. Tuttavia, sono efficaci solo quando operano alla risoluzione utilizzata durante l'addestramento. L'inferenza a una risoluzione ridimensionata porta a pattern ripetitivi e distorsioni strutturali. Il riaddestramento a risoluzioni più elevate diventa rapidamente proibitivo. Pertanto, i metodi che consentono ai modelli di diffusione preesistenti di operare a risoluzioni flessibili durante il test sono molto desiderabili. I lavori precedenti soffrono di frequenti artefatti e spesso introducono grandi ritardi di latenza. Proponiamo due moduli semplici che si combinano per risolvere questi problemi. Introduciamo un modulo di Modulazione della Frequenza (FM) che sfrutta il dominio di Fourier per migliorare la coerenza della struttura globale, e un modulo di Modulazione dell'Attenzione (AM) che migliora la coerenza dei pattern di texture locali, un problema largamente ignorato nei lavori precedenti. Il nostro metodo, denominato diffusione Fam, può integrarsi senza soluzione di continuità in qualsiasi modello di diffusione latente e non richiede ulteriore addestramento. Estesi risultati qualitativi evidenziano l'efficacia del nostro metodo nel risolvere artefatti strutturali e locali, mentre i risultati quantitativi mostrano prestazioni all'avanguardia. Inoltre, il nostro metodo evita trucchi ridondanti di inferenza per una maggiore coerenza come la generazione basata su patch o progressiva, riducendo al minimo i ritardi di latenza.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary