Super risoluzione di immagini a passi arbitrari tramite inversione della diffusione

Abstract

Questo studio presenta una nuova tecnica di super risoluzione (SR) delle immagini basata sull'inversione della diffusione, mirando a sfruttare i ricchi priori delle immagini racchiusi nei grandi modelli di diffusione pre-addestrati per migliorare le prestazioni della SR. Progettiamo una strategia di Predizione parziale del rumore per costruire uno stato intermedio del modello di diffusione, che funge da punto di campionamento iniziale. Al centro del nostro approccio c'è un predittore profondo del rumore per stimare le mappe ottimali del rumore per il processo di diffusione in avanti. Una volta addestrato, questo predittore del rumore può essere utilizzato per inizializzare parzialmente il processo di campionamento lungo la traiettoria di diffusione, generando il desiderato risultato ad alta risoluzione. Rispetto agli approcci esistenti, il nostro metodo offre un meccanismo di campionamento flessibile ed efficiente che supporta un numero arbitrario di passaggi di campionamento, che vanno da uno a cinque. Anche con un singolo passaggio di campionamento, il nostro metodo dimostra prestazioni superiori o comparabili agli approcci di ultima generazione. Il codice e il modello sono disponibili pubblicamente su https://github.com/zsyOAOA/InvSR.

English

This study presents a new image super-resolution (SR) technique based on diffusion inversion, aiming at harnessing the rich image priors encapsulated in large pre-trained diffusion models to improve SR performance. We design a Partial noise Prediction strategy to construct an intermediate state of the diffusion model, which serves as the starting sampling point. Central to our approach is a deep noise predictor to estimate the optimal noise maps for the forward diffusion process. Once trained, this noise predictor can be used to initialize the sampling process partially along the diffusion trajectory, generating the desirable high-resolution result. Compared to existing approaches, our method offers a flexible and efficient sampling mechanism that supports an arbitrary number of sampling steps, ranging from one to five. Even with a single sampling step, our method demonstrates superior or comparable performance to recent state-of-the-art approaches. The code and model are publicly available at https://github.com/zsyOAOA/InvSR.

Super risoluzione di immagini a passi arbitrari tramite inversione della diffusione

Arbitrary-steps Image Super-resolution via Diffusion Inversion

Abstract

Summary

Support