計算上の制約と視覚的自己回帰モデルの証明可能な効率基準に関する:細かく粒状な複雑性分析
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
January 8, 2025
著者: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI
要旨
最近、Visual Autoregressive (VAR) モデルは画像生成の分野で画期的な進歩をもたらし、粗いから細かい「次のスケール予測」パラダイムを通じてスケーラブルなアプローチを提供しています。しかし、[Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] におけるVARモデルの最先端アルゴリズムは O(n^4) の時間を要し、計算効率が低いです。本研究では、VARモデルの計算上の限界と効率基準を詳細な複雑性レンズを通じて分析します。私たちの主要な貢献は、VAR計算が二次時間複雑性を達成できる条件を特定することです。具体的には、VAR注意メカニズムで使用される入力行列のノルムに対する臨界閾値を確立します。この閾値を超えると、細かい複雑性理論からの強指数時間仮説(SETH)を仮定すると、VARモデルのための四次未満の時間アルゴリズムは不可能です。理論的な発見を裏付けるために、導かれた基準に合致する低ランク近似を活用した効率的な構築を提示します。この研究は、VARモデルの計算効率性を理論的観点から研究を開始します。私たちの手法は、VARフレームワークにおけるスケーラブルで効率的な画像生成の進展に光を当てるでしょう。
English
Recently, Visual Autoregressive (VAR) Models introduced a
groundbreaking advancement in the field of image generation, offering a
scalable approach through a coarse-to-fine "next-scale prediction" paradigm.
However, the state-of-the-art algorithm of VAR models in [Tian,
Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is
computationally inefficient. In this work, we analyze the computational limits
and efficiency criteria of VAR Models through a fine-grained
complexity lens. Our key contribution is identifying the conditions under which
VAR computations can achieve sub-quadratic time complexity.
Specifically, we establish a critical threshold for the norm of input matrices
used in VAR attention mechanisms. Above this threshold, assuming the
Strong Exponential Time Hypothesis (SETH) from fine-grained
complexity theory, a sub-quartic time algorithm for VAR models is
impossible. To substantiate our theoretical findings, we present efficient
constructions leveraging low-rank approximations that align with the derived
criteria. This work initiates the study of the computational efficiency of the
VAR model from a theoretical perspective. Our technique will shed
light on advancing scalable and efficient image generation in VAR
frameworks.Summary
AI-Generated Summary