Modelli di Flusso di Apprendimento con Miscele Gaussiane

Abstract

I modelli di diffusione approssimano la distribuzione di denoising come una Gaussiana e ne predicono la media, mentre i modelli di flow matching riformulano la media Gaussiana come velocità di flusso. Tuttavia, questi ultimi ottengono prestazioni inferiori nel campionamento con pochi passi a causa dell'errore di discretizzazione e tendono a produrre colori eccessivamente saturi sotto la guida senza classificatore (CFG). Per affrontare queste limitazioni, proponiamo un nuovo modello di Gaussian mixture flow matching (GMFlow): invece di predire la media, GMFlow predice parametri dinamici di miscela Gaussiana (GM) per catturare una distribuzione multi-modale della velocità di flusso, che può essere appresa con una perdita di divergenza KL. Dimostriamo che GMFlow generalizza i precedenti modelli di diffusione e flow matching, in cui viene appresa una singola Gaussiana con una perdita di denoising L_2. Per l'inferenza, deriviamo risolutori GM-SDE/ODE che sfruttano distribuzioni di denoising analitiche e campi di velocità per un campionamento preciso con pochi passi. Inoltre, introduciamo un nuovo schema di guida probabilistica che mitiga i problemi di sovrasaturazione della CFG e migliora la qualità della generazione di immagini. Esperimenti estensivi dimostrano che GMFlow supera costantemente i baseline di flow matching in termini di qualità di generazione, raggiungendo una Precisione di 0,942 con soli 6 passi di campionamento su ImageNet 256×256.

English

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an L_2 denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256times256.

Modelli di Flusso di Apprendimento con Miscele Gaussiane

Gaussian Mixture Flow Matching Models

Abstract

Summary

Support

Support