Sobre Limites Computacionais e Critérios Comprovadamente Eficientes de Modelos Autorregressivos Visuais: Uma Análise de Complexidade Detalhada

Resumo

Recentemente, os Modelos Visuais Autoregressivos (VAR) introduziram um avanço inovador no campo da geração de imagens, oferecendo uma abordagem escalável por meio de um paradigma de "próxima escala de previsão" de grosso a fino. No entanto, o algoritmo de ponta dos modelos VAR em [Tian, Jiang, Yuan, Peng e Wang, NeurIPS 2024] leva tempo O(n^4), o que é computacionalmente ineficiente. Neste trabalho, analisamos os limites computacionais e os critérios de eficiência dos Modelos VAR por meio de uma lente de complexidade detalhada. Nossa contribuição chave é identificar as condições sob as quais os cálculos VAR podem alcançar uma complexidade de tempo subquadrática. Especificamente, estabelecemos um limiar crítico para a norma das matrizes de entrada usadas nos mecanismos de atenção VAR. Acima desse limiar, assumindo a Hipótese do Tempo Exponencial Forte (SETH) da teoria de complexidade detalhada, um algoritmo de tempo subquártico para modelos VAR é impossível. Para fundamentar nossas descobertas teóricas, apresentamos construções eficientes aproveitando aproximações de baixa patente que se alinham com os critérios derivados. Este trabalho inicia o estudo da eficiência computacional do modelo VAR de uma perspectiva teórica. Nossa técnica lançará luz sobre o avanço da geração de imagens escaláveis e eficientes em estruturas VAR.

English

Recently, Visual Autoregressive (VAR) Models introduced a groundbreaking advancement in the field of image generation, offering a scalable approach through a coarse-to-fine "next-scale prediction" paradigm. However, the state-of-the-art algorithm of VAR models in [Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is computationally inefficient. In this work, we analyze the computational limits and efficiency criteria of VAR Models through a fine-grained complexity lens. Our key contribution is identifying the conditions under which VAR computations can achieve sub-quadratic time complexity. Specifically, we establish a critical threshold for the norm of input matrices used in VAR attention mechanisms. Above this threshold, assuming the Strong Exponential Time Hypothesis (SETH) from fine-grained complexity theory, a sub-quartic time algorithm for VAR models is impossible. To substantiate our theoretical findings, we present efficient constructions leveraging low-rank approximations that align with the derived criteria. This work initiates the study of the computational efficiency of the VAR model from a theoretical perspective. Our technique will shed light on advancing scalable and efficient image generation in VAR frameworks.

Sobre Limites Computacionais e Critérios Comprovadamente Eficientes de Modelos Autorregressivos Visuais: Uma Análise de Complexidade Detalhada

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

Resumo

Support