Schaalvergroting op inferentietijd voor Diffusie Modellen voorbij het schalen van denoising stappen.

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

January 16, 2025
Auteurs: Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie
cs.AI

Samenvatting

Generatieve modellen hebben aanzienlijke impact gehad op verschillende domeinen, grotendeels vanwege hun vermogen om tijdens training op te schalen door het vergroten van data, rekenkracht en modelgrootte, een fenomeen dat wordt gekenmerkt door de schalingswetten. Recente onderzoeken zijn begonnen met het verkennen van het schalingsgedrag op inferentietijd in Grote Taalmodellen (GTM's), waarbij wordt onthuld hoe de prestaties verder kunnen verbeteren met extra berekening tijdens inferentie. In tegenstelling tot GTM's hebben diffusiemodellen van nature de flexibiliteit om inferentieberekening aan te passen via het aantal denoising-stappen, hoewel de prestatiewinsten meestal afvlakken na enkele tientallen stappen. In dit werk verkennen we het schalingsgedrag op inferentietijd van diffusiemodellen voorbij het verhogen van denoising-stappen en onderzoeken we hoe de generatieprestaties verder kunnen verbeteren met meer berekening. Specifiek bekijken we een zoekprobleem gericht op het identificeren van betere ruis voor het diffusie samplingproces. We structureren de ontwerpruimte langs twee assen: de verificatiemethoden die worden gebruikt om feedback te geven, en de algoritmen die worden gebruikt om betere ruiskandidaten te vinden. Door uitgebreide experimenten op klasse-geconditioneerde en tekst-geconditioneerde beeldgeneratie benchmarks, tonen onze bevindingen aan dat het verhogen van inferentieberekening leidt tot aanzienlijke verbeteringen in de kwaliteit van de door diffusiemodellen gegenereerde monsters, en met de complexe aard van afbeeldingen kunnen combinaties van de componenten in het kader specifiek worden gekozen om overeen te stemmen met verschillende toepassingsscenario's.
English
Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario.

Summary

AI-Generated Summary

PDF402January 17, 2025