시각 자기회귀 모델의 계산 한계와 증명 가능한 효율 기준에 관한 세밀한 복잡성 분석
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
January 8, 2025
저자: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI
초록
최근에, 시각 자기 회귀(Visual Autoregressive, VAR) 모델은 이미지 생성 분야에서 혁신적인 발전을 이뤘으며, "다음 스케일 예측" 패러다임을 통해 확장 가능한 접근 방식을 제공했습니다. 그러나, [Tian, Jiang, Yuan, Peng 및 Wang, NeurIPS 2024]의 VAR 모델의 최신 알고리즘은 O(n^4) 시간이 소요되어 계산적으로 비효율적입니다. 본 연구에서는 VAR 모델의 계산 한계와 효율성 기준을 세밀한 복잡성 관점을 통해 분석합니다. 우리의 주요 기여는 VAR 계산이 이차 시간 복잡도를 달성할 수 있는 조건을 식별하는 것입니다. 구체적으로, VAR 주의 메커니즘에서 사용된 입력 행렬의 노름에 대한 임계값을 설정합니다. 이 임계값을 초과하는 경우, 세밀한 복잡성 이론의 강한 지수 시간 가설(SETH)을 전제로 하면, VAR 모델을 위한 이차보다 낮은 시간 알고리즘은 불가능합니다. 우리의 이론적 결과를 입증하기 위해, 유도된 기준과 일치하는 저랭크 근사를 활용한 효율적인 구성을 제시합니다. 이 작업은 VAR 모델의 계산 효율성을 이론적 관점에서 연구를 시작합니다. 우리의 기술은 VAR 프레임워크에서 확장 가능하고 효율적인 이미지 생성을 발전시키는 데 도움이 될 것입니다.
English
Recently, Visual Autoregressive (VAR) Models introduced a
groundbreaking advancement in the field of image generation, offering a
scalable approach through a coarse-to-fine "next-scale prediction" paradigm.
However, the state-of-the-art algorithm of VAR models in [Tian,
Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is
computationally inefficient. In this work, we analyze the computational limits
and efficiency criteria of VAR Models through a fine-grained
complexity lens. Our key contribution is identifying the conditions under which
VAR computations can achieve sub-quadratic time complexity.
Specifically, we establish a critical threshold for the norm of input matrices
used in VAR attention mechanisms. Above this threshold, assuming the
Strong Exponential Time Hypothesis (SETH) from fine-grained
complexity theory, a sub-quartic time algorithm for VAR models is
impossible. To substantiate our theoretical findings, we present efficient
constructions leveraging low-rank approximations that align with the derived
criteria. This work initiates the study of the computational efficiency of the
VAR model from a theoretical perspective. Our technique will shed
light on advancing scalable and efficient image generation in VAR
frameworks.Summary
AI-Generated Summary