Sobre Limites Computacionais e Critérios Comprovadamente Eficientes de Modelos Autorregressivos Visuais: Uma Análise de Complexidade Detalhada
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
January 8, 2025
Autores: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI
Resumo
Recentemente, os Modelos Visuais Autoregressivos (VAR) introduziram um avanço inovador no campo da geração de imagens, oferecendo uma abordagem escalável por meio de um paradigma de "próxima escala de previsão" de grosso a fino. No entanto, o algoritmo de ponta dos modelos VAR em [Tian, Jiang, Yuan, Peng e Wang, NeurIPS 2024] leva tempo O(n^4), o que é computacionalmente ineficiente. Neste trabalho, analisamos os limites computacionais e os critérios de eficiência dos Modelos VAR por meio de uma lente de complexidade detalhada. Nossa contribuição chave é identificar as condições sob as quais os cálculos VAR podem alcançar uma complexidade de tempo subquadrática. Especificamente, estabelecemos um limiar crítico para a norma das matrizes de entrada usadas nos mecanismos de atenção VAR. Acima desse limiar, assumindo a Hipótese do Tempo Exponencial Forte (SETH) da teoria de complexidade detalhada, um algoritmo de tempo subquártico para modelos VAR é impossível. Para fundamentar nossas descobertas teóricas, apresentamos construções eficientes aproveitando aproximações de baixa patente que se alinham com os critérios derivados. Este trabalho inicia o estudo da eficiência computacional do modelo VAR de uma perspectiva teórica. Nossa técnica lançará luz sobre o avanço da geração de imagens escaláveis e eficientes em estruturas VAR.
English
Recently, Visual Autoregressive (VAR) Models introduced a
groundbreaking advancement in the field of image generation, offering a
scalable approach through a coarse-to-fine "next-scale prediction" paradigm.
However, the state-of-the-art algorithm of VAR models in [Tian,
Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is
computationally inefficient. In this work, we analyze the computational limits
and efficiency criteria of VAR Models through a fine-grained
complexity lens. Our key contribution is identifying the conditions under which
VAR computations can achieve sub-quadratic time complexity.
Specifically, we establish a critical threshold for the norm of input matrices
used in VAR attention mechanisms. Above this threshold, assuming the
Strong Exponential Time Hypothesis (SETH) from fine-grained
complexity theory, a sub-quartic time algorithm for VAR models is
impossible. To substantiate our theoretical findings, we present efficient
constructions leveraging low-rank approximations that align with the derived
criteria. This work initiates the study of the computational efficiency of the
VAR model from a theoretical perspective. Our technique will shed
light on advancing scalable and efficient image generation in VAR
frameworks.Summary
AI-Generated Summary