Scalatura al Tempo di Inferenza per Modelli di Flusso tramite Generazione Stocastica e Forzatura del Budget di Rollover
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
March 25, 2025
Autori: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI
Abstract
Proponiamo un approccio di scalatura al momento dell'inferenza per modelli di flusso pre-addestrati. Recentemente, la scalatura al momento dell'inferenza ha attirato notevole attenzione nei modelli linguistici di grandi dimensioni (LLM) e nei modelli di diffusione, migliorando la qualità dei campioni o allineando meglio gli output con le preferenze degli utenti sfruttando calcoli aggiuntivi. Per i modelli di diffusione, il campionamento particellare ha permesso una scalatura più efficiente grazie alla stocasticità nei passaggi intermedi di denoising. Al contrario, sebbene i modelli di flusso abbiano guadagnato popolarità come alternativa ai modelli di diffusione—offrendo una generazione più rapida e output di alta qualità nei modelli generativi all'avanguardia per immagini e video—i metodi efficienti di scalatura al momento dell'inferenza utilizzati per i modelli di diffusione non possono essere applicati direttamente a causa del loro processo generativo deterministico. Per abilitare una scalatura efficiente al momento dell'inferenza nei modelli di flusso, proponiamo tre idee chiave: 1) Generazione basata su SDE, che consente il campionamento particellare nei modelli di flusso, 2) Conversione dell'interpolante, ampliando lo spazio di ricerca e migliorando la diversità dei campioni, e 3) Rollover Budget Forcing (RBF), un'allocazione adattiva delle risorse computazionali attraverso i passaggi temporali per massimizzare l'utilizzo del budget. I nostri esperimenti dimostrano che la generazione basata su SDE, in particolare la generazione basata su interpolante a varianza preservata (VP), migliora le prestazioni dei metodi di campionamento particellare per la scalatura al momento dell'inferenza nei modelli di flusso. Inoltre, dimostriamo che RBF con VP-SDE raggiunge le migliori prestazioni, superando tutti gli approcci precedenti di scalatura al momento dell'inferenza.
English
We propose an inference-time scaling approach for pretrained flow models.
Recently, inference-time scaling has gained significant attention in LLMs and
diffusion models, improving sample quality or better aligning outputs with user
preferences by leveraging additional computation. For diffusion models,
particle sampling has allowed more efficient scaling due to the stochasticity
at intermediate denoising steps. On the contrary, while flow models have gained
popularity as an alternative to diffusion models--offering faster generation
and high-quality outputs in state-of-the-art image and video generative
models--efficient inference-time scaling methods used for diffusion models
cannot be directly applied due to their deterministic generative process. To
enable efficient inference-time scaling for flow models, we propose three key
ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2)
Interpolant conversion, broadening the search space and enhancing sample
diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of
computational resources across timesteps to maximize budget utilization. Our
experiments show that SDE-based generation, particularly variance-preserving
(VP) interpolant-based generation, improves the performance of particle
sampling methods for inference-time scaling in flow models. Additionally, we
demonstrate that RBF with VP-SDE achieves the best performance, outperforming
all previous inference-time scaling approaches.Summary
AI-Generated Summary