ChatPaper.aiChatPaper

Ein-Schritt-Residual-Shifting-Diffusion für Bildsuperauflösung durch Destillation

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

March 17, 2025
Autoren: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI

Zusammenfassung

Diffusionsmodelle für Super-Resolution (SR) erzeugen hochwertige visuelle Ergebnisse, erfordern jedoch hohe Rechenkosten. Trotz der Entwicklung mehrerer Methoden zur Beschleunigung von diffusionsbasierten SR-Modellen scheitern einige (z. B. SinSR) daran, realistische perzeptive Details zu erzeugen, während andere (z. B. OSEDiff) nicht existierende Strukturen halluzinieren können. Um diese Probleme zu überwinden, stellen wir RSD vor, eine neue Destillationsmethode für ResShift, eines der führenden diffusionsbasierten SR-Modelle. Unsere Methode basiert darauf, das Studentennetzwerk so zu trainieren, dass es Bilder erzeugt, bei denen ein neues, darauf trainiertes gefälschtes ResShift-Modell mit dem Lehrermodell übereinstimmt. RSD erreicht eine Einzelschritt-Restaurierung und übertrifft das Lehrermodell deutlich. Wir zeigen, dass unsere Destillationsmethode die andere Destillationsmethode für ResShift – SinSR – übertreffen kann, wodurch sie mit den state-of-the-art diffusionsbasierten SR-Destillationsmethoden gleichzieht. Im Vergleich zu SR-Methoden, die auf vortrainierten Text-zu-Bild-Modellen basieren, erzeugt RSD eine konkurrenzfähige perzeptive Qualität, liefert Bilder mit besserer Ausrichtung an die degradierten Eingabebilder und benötigt weniger Parameter und GPU-Speicher. Wir präsentieren experimentelle Ergebnisse auf verschiedenen realen und synthetischen Datensätzen, darunter RealSR, RealSet65, DRealSR, ImageNet und DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

Summary

AI-Generated Summary

PDF932March 21, 2025