Mise à l'échelle au moment de l'inférence pour les modèles de flux via la génération stochastique et le forçage budgétaire par roulement
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
March 25, 2025
Auteurs: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI
Résumé
Nous proposons une approche de mise à l'échelle au moment de l'inférence pour les modèles de flux pré-entraînés. Récemment, la mise à l'échelle au moment de l'inférence a suscité un intérêt considérable dans les LLM et les modèles de diffusion, améliorant la qualité des échantillons ou alignant mieux les sorties avec les préférences des utilisateurs en exploitant des calculs supplémentaires. Pour les modèles de diffusion, l'échantillonnage de particules a permis une mise à l'échelle plus efficace grâce à la stochasticité des étapes intermédiaires de débruitage. En revanche, bien que les modèles de flux aient gagné en popularité comme alternative aux modèles de diffusion—offrant une génération plus rapide et des sorties de haute qualité dans les modèles génératifs d'images et de vidéos de pointe—les méthodes de mise à l'échelle au moment de l'inférence utilisées pour les modèles de diffusion ne peuvent pas être directement appliquées en raison de leur processus génératif déterministe. Pour permettre une mise à l'échelle efficace au moment de l'inférence pour les modèles de flux, nous proposons trois idées clés : 1) la génération basée sur les EDS, permettant l'échantillonnage de particules dans les modèles de flux, 2) la conversion d'interpolants, élargissant l'espace de recherche et améliorant la diversité des échantillons, et 3) le Forçage de Budget de Report (RBF), une allocation adaptative des ressources de calcul à travers les pas de temps pour maximiser l'utilisation du budget. Nos expériences montrent que la génération basée sur les EDS, en particulier la génération basée sur les interpolants préservant la variance (VP), améliore les performances des méthodes d'échantillonnage de particules pour la mise à l'échelle au moment de l'inférence dans les modèles de flux. De plus, nous démontrons que le RBF avec EDS-VP obtient les meilleures performances, surpassant toutes les approches précédentes de mise à l'échelle au moment de l'inférence.
English
We propose an inference-time scaling approach for pretrained flow models.
Recently, inference-time scaling has gained significant attention in LLMs and
diffusion models, improving sample quality or better aligning outputs with user
preferences by leveraging additional computation. For diffusion models,
particle sampling has allowed more efficient scaling due to the stochasticity
at intermediate denoising steps. On the contrary, while flow models have gained
popularity as an alternative to diffusion models--offering faster generation
and high-quality outputs in state-of-the-art image and video generative
models--efficient inference-time scaling methods used for diffusion models
cannot be directly applied due to their deterministic generative process. To
enable efficient inference-time scaling for flow models, we propose three key
ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2)
Interpolant conversion, broadening the search space and enhancing sample
diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of
computational resources across timesteps to maximize budget utilization. Our
experiments show that SDE-based generation, particularly variance-preserving
(VP) interpolant-based generation, improves the performance of particle
sampling methods for inference-time scaling in flow models. Additionally, we
demonstrate that RBF with VP-SDE achieves the best performance, outperforming
all previous inference-time scaling approaches.Summary
AI-Generated Summary