Sui Limiti Computazionali e Criteri Provabilmente Efficienti dei Modelli Autoregressivi Visivi: Un'Analisi della Complessità Dettagliata

Abstract

Recentemente, i Modelli Autoregressivi Visivi (VAR) hanno introdotto un avanzamento rivoluzionario nel campo della generazione di immagini, offrendo un approccio scalabile attraverso un paradigma di "previsione della prossima scala" da grossolana a fine. Tuttavia, l'algoritmo all'avanguardia dei modelli VAR in [Tian, Jiang, Yuan, Peng e Wang, NeurIPS 2024] richiede un tempo O(n^4), che risulta computazionalmente inefficiente. In questo lavoro, analizziamo i limiti computazionali e i criteri di efficienza dei Modelli VAR attraverso una lente di complessità dettagliata. Il nostro contributo chiave consiste nell'identificare le condizioni in cui i calcoli VAR possono raggiungere una complessità temporale sub-quadratica. In particolare, stabiliamo una soglia critica per la norma delle matrici di input utilizzate nei meccanismi di attenzione VAR. Al di sopra di questa soglia, assumendo l'Ipotesi del Tempo Esponenziale Forte (SETH) dalla teoria della complessità dettagliata, diventa impossibile un algoritmo temporale sub-quartico per i modelli VAR. Per supportare i nostri risultati teorici, presentiamo costruzioni efficienti che sfruttano approssimazioni a basso rango che si allineano ai criteri derivati. Questo lavoro avvia lo studio dell'efficienza computazionale del modello VAR da una prospettiva teorica. La nostra tecnica farà luce sull'avanzamento della generazione di immagini scalabile ed efficiente nei framework VAR.

English

Recently, Visual Autoregressive (VAR) Models introduced a groundbreaking advancement in the field of image generation, offering a scalable approach through a coarse-to-fine "next-scale prediction" paradigm. However, the state-of-the-art algorithm of VAR models in [Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is computationally inefficient. In this work, we analyze the computational limits and efficiency criteria of VAR Models through a fine-grained complexity lens. Our key contribution is identifying the conditions under which VAR computations can achieve sub-quadratic time complexity. Specifically, we establish a critical threshold for the norm of input matrices used in VAR attention mechanisms. Above this threshold, assuming the Strong Exponential Time Hypothesis (SETH) from fine-grained complexity theory, a sub-quartic time algorithm for VAR models is impossible. To substantiate our theoretical findings, we present efficient constructions leveraging low-rank approximations that align with the derived criteria. This work initiates the study of the computational efficiency of the VAR model from a theoretical perspective. Our technique will shed light on advancing scalable and efficient image generation in VAR frameworks.

Sui Limiti Computazionali e Criteri Provabilmente Efficienti dei Modelli Autoregressivi Visivi: Un'Analisi della Complessità Dettagliata

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

Abstract

Support