Un Rumore Vale la Guida alla Diffusione
A Noise is Worth Diffusion Guidance
December 5, 2024
Autori: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI
Abstract
I modelli di diffusione eccellono nella generazione di immagini di alta qualità. Tuttavia, i modelli di diffusione attuali faticano a produrre immagini affidabili senza l'ausilio di metodi guida, come la guida senza classificatore (CFG). I metodi guida sono veramente necessari? Osservando che il rumore ottenuto tramite inversione di diffusione può ricostruire immagini di alta qualità senza guida, ci concentriamo sul rumore iniziale del processo di denoising. Mappando il rumore gaussiano in 'rumore senza guida', scopriamo che piccoli componenti a bassa magnitudine e bassa frequenza migliorano significativamente il processo di denoising, eliminando la necessità di guida e migliorando quindi sia il throughput inferenziale che la memoria. Approfondendo questo aspetto, proponiamo \ours, un nuovo metodo che sostituisce i metodi guida con un singolo perfezionamento del rumore iniziale. Questo rumore perfezionato consente la generazione di immagini di alta qualità senza guida, all'interno dello stesso processo di diffusione. Il nostro modello di raffinamento del rumore sfrutta un apprendimento efficiente dello spazio del rumore, raggiungendo una rapida convergenza e ottime prestazioni con soli 50.000 coppie testo-immagine. Confermiamo la sua efficacia attraverso diversi indicatori e analizziamo come il rumore raffinato possa eliminare la necessità di guida. Consultare la nostra pagina del progetto: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current
diffusion models struggle to produce reliable images without guidance methods,
such as classifier-free guidance (CFG). Are guidance methods truly necessary?
Observing that noise obtained via diffusion inversion can reconstruct
high-quality images without guidance, we focus on the initial noise of the
denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we
uncover that small low-magnitude low-frequency components significantly enhance
the denoising process, removing the need for guidance and thus improving both
inference throughput and memory. Expanding on this, we propose \ours, a novel
method that replaces guidance methods with a single refinement of the initial
noise. This refined noise enables high-quality image generation without
guidance, within the same diffusion pipeline. Our noise-refining model
leverages efficient noise-space learning, achieving rapid convergence and
strong performance with just 50K text-image pairs. We validate its
effectiveness across diverse metrics and analyze how refined noise can
eliminate the need for guidance. See our project page:
https://cvlab-kaist.github.io/NoiseRefine/.Summary
AI-Generated Summary