スケーリング除去を超えた拡散モデルの推論時スケーリング
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
January 16, 2025
著者: Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie
cs.AI
要旨
生成モデルは、データ、計算リソース、およびモデルサイズを増やすことでトレーニング中にスケーリングする能力により、さまざまな領域に大きな影響を与えています。この現象はスケーリング則によって特徴付けられます。最近の研究では、大規模言語モデル(LLMs)における推論時のスケーリング挙動を探索し始め、追加の計算によってパフォーマンスをさらに向上させる方法が明らかになっています。LLMsとは異なり、拡散モデルはノイズリダクションステップの数を調整する柔軟性を持っていますが、パフォーマンスの向上は通常、数十回のステップの後に頭打ちになります。本研究では、拡散モデルの推論時のスケーリング挙動を、ノイズリダクションステップの増加を超えて探求し、増加した計算によって生成パフォーマンスをさらに向上させる方法を調査します。具体的には、拡散サンプリングプロセスのためのより良いノイズを特定するための検索問題を考えます。我々は、フィードバックを提供する検証者と、より良いノイズ候補を見つけるために使用されるアルゴリズムという2つの軸に沿って設計空間を構築します。クラス条件付きおよびテキスト条件付きの画像生成ベンチマークでの広範な実験を通じて、我々の調査結果は、拡散モデルによって生成されたサンプルの品質が大幅に向上することを示し、画像の複雑な性質において、フレームワーク内のコンポーネントの組み合わせが異なるアプリケーションシナリオに適合するように特に選択できることを示唆しています。
English
Generative models have made significant impacts across various domains,
largely due to their ability to scale during training by increasing data,
computational resources, and model size, a phenomenon characterized by the
scaling laws. Recent research has begun to explore inference-time scaling
behavior in Large Language Models (LLMs), revealing how performance can further
improve with additional computation during inference. Unlike LLMs, diffusion
models inherently possess the flexibility to adjust inference-time computation
via the number of denoising steps, although the performance gains typically
flatten after a few dozen. In this work, we explore the inference-time scaling
behavior of diffusion models beyond increasing denoising steps and investigate
how the generation performance can further improve with increased computation.
Specifically, we consider a search problem aimed at identifying better noises
for the diffusion sampling process. We structure the design space along two
axes: the verifiers used to provide feedback, and the algorithms used to find
better noise candidates. Through extensive experiments on class-conditioned and
text-conditioned image generation benchmarks, our findings reveal that
increasing inference-time compute leads to substantial improvements in the
quality of samples generated by diffusion models, and with the complicated
nature of images, combinations of the components in the framework can be
specifically chosen to conform with different application scenario.Summary
AI-Generated Summary