FreSca: Esplorazione dello Spazio di Scalabilità nei Modelli di Diffusione
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Autori: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Abstract
I modelli di diffusione offrono un impressionante controllo per le attività legate alle immagini, principalmente attraverso previsioni del rumore che codificano informazioni specifiche per il compito e una guida senza classificatore che consente una scalabilità regolabile. Questo meccanismo di scalabilità definisce implicitamente uno "spazio di scalabilità" il cui potenziale per la manipolazione semantica fine rimane ancora poco esplorato. Investigiamo questo spazio, partendo dall'editing basato sull'inversione, dove la differenza tra le previsioni condizionate e non condizionate del rumore trasporta informazioni semantiche chiave. Il nostro contributo principale deriva da un'analisi di Fourier delle previsioni del rumore, rivelando che le sue componenti a bassa e alta frequenza evolvono in modo diverso durante la diffusione. Basandoci su questa intuizione, introduciamo FreSca, un metodo semplice che applica la scalabilità della guida in modo indipendente a diverse bande di frequenza nel dominio di Fourier. FreSca migliora in modo dimostrabile i metodi esistenti di editing delle immagini senza necessità di riaddestramento. In modo entusiasmante, la sua efficacia si estende anche a compiti di comprensione delle immagini come la stima della profondità, producendo guadagni quantitativi su più dataset.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary