Trainingsfreie Diffusionsbeschleunigung durch Flaschenhals-Sampling
Training-free Diffusion Acceleration with Bottleneck Sampling
March 24, 2025
Autoren: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI
Zusammenfassung
Diffusionsmodelle haben bemerkenswerte Fähigkeiten in der Generierung visueller Inhalte gezeigt, bleiben jedoch aufgrund ihrer hohen Rechenkosten während der Inferenz eine Herausforderung für den Einsatz. Diese Rechenlast ergibt sich hauptsächlich aus der quadratischen Komplexität der Selbstaufmerksamkeit in Bezug auf die Bild- oder Videoauflösung. Während bestehende Beschleunigungsmethoden oft die Ausgabequalität beeinträchtigen oder kostspielige Neuberechnungen erfordern, stellen wir fest, dass die meisten Diffusionsmodelle mit niedrigeren Auflösungen vortrainiert sind, was eine Möglichkeit bietet, diese niedrigauflösenden Prioritäten für eine effizientere Inferenz zu nutzen, ohne die Leistung zu beeinträchtigen. In dieser Arbeit stellen wir Bottleneck Sampling vor, ein trainingsfreies Framework, das niedrigauflösende Prioritäten nutzt, um den Rechenaufwand zu reduzieren und gleichzeitig die Ausgabetreue zu bewahren. Bottleneck Sampling folgt einem Hoch-Niedrig-Hoch-Entrauschungs-Workflow: Es führt eine hochauflösende Entrauschung in den Anfangs- und Endphasen durch, während es in den Zwischenschritten mit niedrigeren Auflösungen arbeitet. Um Aliasing- und Unschärfeartefakte zu minimieren, verfeinern wir die Auflösungsübergangspunkte und passen die Entrauschungszeitpunkte in jeder Phase adaptiv an. Wir evaluieren Bottleneck Sampling sowohl bei Bild- als auch bei Videogenerierungsaufgaben, wobei umfangreiche Experimente zeigen, dass es die Inferenz um bis zu das 3-fache bei der Bildgenerierung und das 2,5-fache bei der Videogenerierung beschleunigt, während die Ausgabequalität über mehrere Bewertungsmetriken hinweg mit dem Standardprozess der Vollauflösungsabtastung vergleichbar bleibt. Der Code ist verfügbar unter: https://github.com/tyfeld/Bottleneck-Sampling
English
Diffusion models have demonstrated remarkable capabilities in visual content
generation but remain challenging to deploy due to their high computational
cost during inference. This computational burden primarily arises from the
quadratic complexity of self-attention with respect to image or video
resolution. While existing acceleration methods often compromise output quality
or necessitate costly retraining, we observe that most diffusion models are
pre-trained at lower resolutions, presenting an opportunity to exploit these
low-resolution priors for more efficient inference without degrading
performance. In this work, we introduce Bottleneck Sampling, a training-free
framework that leverages low-resolution priors to reduce computational overhead
while preserving output fidelity. Bottleneck Sampling follows a high-low-high
denoising workflow: it performs high-resolution denoising in the initial and
final stages while operating at lower resolutions in intermediate steps. To
mitigate aliasing and blurring artifacts, we further refine the resolution
transition points and adaptively shift the denoising timesteps at each stage.
We evaluate Bottleneck Sampling on both image and video generation tasks, where
extensive experiments demonstrate that it accelerates inference by up to
3times for image generation and 2.5times for video generation, all while
maintaining output quality comparable to the standard full-resolution sampling
process across multiple evaluation metrics. Code is available at:
https://github.com/tyfeld/Bottleneck-SamplingSummary
AI-Generated Summary